[zero-base/] DS Part 7. 통계심화 - 48일차 스터디 노트

손윤재·2024년 2월 8일

제로베이스 DS 22기

목록 보기
49/55
post-thumbnail

통계분석



가설검정

  • 가설이란?
    • 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측이다.
    • 통계학에서는 특히 모수를 추청 할 때 모수가 어떠하다는 증명하고 싶은 추측이나 주장을 가설이라고 한다.

[가설검정(Hypothesis Testing) 절차]

  1. 가설수립
    귀무가설(NULL hypothesis) H0H_0 : 코로나 백신이 효과가 없다.
    대립가설(Alternative hypothesis) H1H_1 : 코로나 백신이 효과가 있다.
  2. 유의수준 설정: 유의수준 α\alpha 정의
  3. 기각역(Reject Region) 설정
  4. 검정통계량 계산
  5. 의사 결정

👉 귀무 가설(Null hypothesis), H0H_0

  • 기존의 사실(아무것도 없다, 의미가 없다)
  • 대립가설과 반대되는 가설
  • 연구하고자 하는 가설의 반대 가설로 귀무 가설은 연구 목적이 아님
  • Ex) H0\textcolor{blue}{H_0} : 코로나 백신이 효과가 없다, H0:μ=0,~\textcolor{blue}{H_0}: \mu=0

👉 대립 가설(Alternative hypothesis), H1H_1

  • 데이터로부터 나온 주장하고 싶은 가설 또는 연구의 목적이 되는 (밝혀내야 할) 가설
  • 귀무가설의 반대
  • Ex) H1\textcolor{blue}{H_1} : 코로나 백신이 효과가 있다, H1:μ0  or  μ0,~\textcolor{blue}{H_1} : \mu \not= 0~~or~~\mu \ge 0

👉 제1종 오류(Type 1 Error)

  • 귀무가설이 실제로는 참이지만, 귀무가설을 기각하는 오류
  • H0H_0를 기각할 확률이 α\alpha라고 하면 반대로 채택하게 될 확률은 1α1-\alpha로 표시할 수 있다.
  • 제 1종오류를 범할 확률의 최대 허용 한계를 유의수준이라고 하며 α\alpha라고 표시한다.
  • 유의수준은 신뢰구간에 반대되는 개념이다.

👉 제2종 오류(Type 2 Error)

  • 귀무가설을 기각해야 하지만, 귀무가설을 기각하지 않은 오류

👉 검정통계량

  • 귀무가설이 참이라는 가정하에 얻은 통계량
  • 검정결과 귀무가설을 기각할 충분한 근거가 있어 대립가설 H1H_1을 선택하게 되면 귀무가설 H0H_0를 기각(reject)한다.
  • 검정결과 귀무가설을 기각할 충분한 근거가 없어 귀무가설 H0H_0을 선택하게 되면 귀무가설을 기각하지 못한다고 표현한다.

👉 P-value

  • 귀무가설이 참일 확률로 0~1사이의 표준화된 지표(확률값) 이다.
    ex> 0.01, 0.05, 0.1,…
  • 귀무가설이 참이라는 가정하에 통계량이 귀무가설을 얼마나 지지하는지를 나타내는 확률이다.
  • 계산된 p-value를 선택한 유의수준과 비교한다. 보통 유의수준은 0.05로 선택되는데 만약 계산된 p-value가 유의수준보다 작으면 귀무가설을 기각하고 대립가설을 채택한다. 그렇지 않으면 귀무가설을 기각할 수 없다.

👉 기각역(Reject Region)

  • 귀무가설을 기각시키는 검정통계량의 관측값의 영역
  • 검정통계량이 기각역 내에 포함된다면 귀무가설 H0H_0를 기각할 수 있다.

👉 양측검정(two-tide test)

  • 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장
  • ex.
    • A백신과 B백신의 코로나 면역력에는 차이가 있다
    • A팀과 B팀의 평균 연봉은 차이가 있다
  • 양측 검정에서는 분포의 두 꼬리(tails) 양쪽에 기각역이 위치한다.   Zα2~\Rightarrow~Z_{\frac{\alpha}{2}}

👉 단측검정(one-side test)

  • 한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다 처럼 한쪽 방향의 주장
  • ex.
    • A제품의 수율이 B제품의 수율보다 크다
    • A팀의 평균 연봉이 B팀의 평균 연봉보다 크다
  • 단측 검정에서는 분포의 한쪽 꼬리에만 기각역이 위치한다.   Zα~\Rightarrow~Z_{\alpha}

🔰 단일 표본

❕ 모평균

✅ 모분산을 아는 경우 : ZZ분포

  • 가설
    1. [양측검정] H0:μ=μ0H_0 : \mu=\mu_0 vs. H1:μμ0H_1 : \mu \not= \mu_0
    2. [단측검정] H0:μμ0H_0 : \mu \le \mu_0 vs. H1:μ>μ0H_1 : \mu > \mu_0
    3. [단측검정] H0:μμ0H_0 : \mu \ge \mu_0 vs. H1:μ<μ0H_1 : \mu < \mu_0
  • 유의수준: α=0.05\alpha = 0.05

  • 검정통계량: Z= Xˉμ σ/n N(0, 1)Z=\cfrac{~\bar X-\mu~}{\sigma/ \sqrt{n~}} \thicksim N(0,~1)

  • 검정통계량 관측값: Z0= Xˉμ0 σ/n Z_0=\cfrac{~\bar X-\mu_0~}{\sigma/ \sqrt{n~}}

    1. z0zα/2|z_0| \ge z_{\alpha/2} 이면 H0H_0 기각
    2. z0zαz_0 \ge z_{\alpha} 이면 H0H_0 기각
    3. z0zαz_0 \le -z_{\alpha} 이면 H0H_0 기각
  • ex.

    커피의 카페인 함량이 140mg이라고 표기 되어 있다. 이 수치가 정확한지 확인하기 위해서 조사해본 결과 100개의 제품을 대상으로 측정한 결과 평균 138.0로 확인 되었다. 표준편차가 15일 때 유의수준 0.05에서 가설 검정을 해보자.

    • 가설: H0:μ=140H_0 : \mu = 140 vs. H1:μ140H_1 : \mu \not= 140
    • 유의수준: α=0.05\alpha = 0.05
    • 양측검정하면, z0= Xˉμ0 σ/n =13814015/10=21.5=1.3333z_0=\cfrac{~\bar X-\mu_0~}{\sigma/ \sqrt{n~}} = \cfrac{138-140}{15/10} = - \cfrac{2}{1.5} = -1.3333
    • z0=1.3333[z0.025=1.96]|z_0=-1.3333| \le [z_{0.025}=1.96] 이므로, H0H_0를 기각할 수 없다. 즉, 커피의 카페인 함량이 140이 아니라고 할 수 없다.

모분산을 모르는 경우, 소표본(n30)(n \le 30) : TT분포

  • 가설

    1. [양측검정] H0:μ=μ0H_0 : \mu=\mu_0 vs. H1:μμ0H_1 : \mu \not= \mu_0
    2. [단측검정] H0:μμ0H_0 : \mu \le \mu_0 vs. H1:μ>μ0      H_1 : \mu > \mu_0 ~~~\Rightarrow~~~오른쪽 단측검정
    3. [단측검정] H0:μμ0H_0 : \mu \ge \mu_0 vs. H1:μ<μ0      H_1 : \mu < \mu_0 ~~~\Rightarrow~~~왼쪽 단측검정
  • 유의수준: α=0.05\alpha = 0.05

  • 검정통계량: T= Xˉμ s/n t(n1)T=\cfrac{~\bar X-\mu~}{s/ \sqrt{n~}} \thicksim t(n-1)

  • 검정통계량 관측값: t0= Xˉμ0 s/n t_0=\cfrac{~\bar X-\mu_0~}{s/ \sqrt{n~}}

    1. t0tα/2, df|t_0| \ge t_{\alpha/2,~df} 이면 H0H_0 기각
    2. t0tα, dft_0 \ge t_{\alpha,~df} 이면 H0H_0 기각
    3. t0tα, dft_0 \le -t_{\alpha,~df} 이면 H0H_0 기각

❕ 모비율

  • 가설

    1. [양측검정] H0:p^=p0H_0 : \hat p = p_0 vs. H1:p^p0H_1 : \hat p \not= p_0
    2. [단측검정] H0:p^p0H_0 : \hat p \le p_0 vs. H1:p^>p0H_1 : \hat p > p_0
    3. [단측검정] H0:p^p0H_0 : \hat p \ge p_0 vs. H1:p^<p0H_1 : \hat p < p_0
  • 유의수준: α=0.05\alpha = 0.05

  • 검정통계량: Z= p^p p(1p)/n N(0, 1)Z=\cfrac{~\hat p-p~}{\sqrt{p(1-p)/n~}} \thicksim N(0,~1)

  • 검정통계량 관측값: Z0=  p^p0 p0(1p0)/n Z_0=\cfrac{~~\hat p-p_0~}{\sqrt{p_0(1-p_0)/n~}}

    1. z0zα/2|z_0| \ge z_{\alpha/2} 이면 H0H_0 기각
    2. z0zαz_0 \ge z_{\alpha} 이면 H0H_0 기각
    3. z0zαz_0 \le -z_{\alpha} 이면 H0H_0 기각
  • ex.

    코로나 백신 A약에 대해서 80%이상 백신효과가 나타나야 효과가 있다고 판단하고 계속해서 약을 판매할 수 있다고 하자. 100명에 대해서 조사를 한 결과 78명만 백신 효과가 있었다고 한다면 이에 대해서 유의 수준 0.05에서 검정해보자.

    • 가설: H0:p^80100H_0 : \hat p \le \frac{80}{100} vs. H1:p^>80100H_1 : \hat p > \frac{80}{100}
    • 유의수준: α=0.05\alpha = 0.05
    • 양측검정하면, z0= p^p0 p0(1p0)/n =0.80.780.8(0.2)/100 =12=0.5z_0=\cfrac{~\hat p-p_0~}{\sqrt{p_0(1-p_0)/n~}} = \cfrac{0.8-0.78}{\sqrt{0.8(0.2)/100}~} = \cfrac{1}{2} = 0.5
    • [z0=0.5][z0.05=1.69][z_0=0.5] \le [z_{0.05}=1.69] 이므로, H0H_0를 기각할 수 없다.

🔰 두개 표본

  • 두 표본은 등분산이고 서로 독립이어야 한다. iid\thicksim iid

❕ 대표본

모분산을 아는 경우

  • 가설

    1. [양측검정] H0:μ1=μ2H_0 : \mu_1=\mu_2 vs. H1:μ1μ2H_1 : \mu_1 \not= \mu_2
    2. [단측검정] H0:μ1=μ2H_0 : \mu_1 = \mu_2 vs. H1:μ1>μ2H_1 : \mu_1 > \mu_2
    3. [단측검정] H0:μ1=μ2H_0 : \mu_1 = \mu_2 vs. H1:μ1<μ2H_1 : \mu_1 < \mu_2
  • 유의수준: α=0.05\alpha = 0.05

  • 검정통계량: Z= (X1ˉX2ˉ)(μ1μ2) σ12/n1+σ22/n2N(0, 1)Z=\cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{\sqrt{{\sigma_1}^2/n_1 + {\sigma_2}^2/n_2}} \thicksim N(0,~1)

  • 검정통계량 관측값: Z0= (X1ˉX2ˉ)σ12/n1+σ22/n2 Z_0=\cfrac{~(\bar{X_1}-\bar{X_2})}{\sqrt{{\sigma_1}^2/n_1 + {\sigma_2}^2/n_2}~}

    1. z0zα/2|z_0| \ge z_{\alpha/2} 이면 H0H_0 기각
    2. z0zαz_0 \ge z_{\alpha} 이면 H0H_0 기각
    3. z0zαz_0 \le -z_{\alpha} 이면 H0H_0 기각
  • ex.

    모집단1에서 추출한 표본의 X1ˉ:35,  σ12:8\bar{X_1}: 35,~~{\sigma_1}^2: 8이고 n1n_1이 50, 모집단2에서 추출한 표본의 X2ˉ:32,  σ22:6\bar{X_2}: 32,~~{\sigma_2}^2: 6이고 n2n_2이 80일 때 두 모집단의 평균이 서로 다르다고 할 수 있는지 유의 수준 0.05에서 검정해보자.

    • 가설: H0:μ1=μ2H_0 : \mu_1 = \mu_2 vs. H1:μ1μ2H_1 : \mu_1 \not= \mu_2

    • 유의수준: α=0.05\alpha = 0.05

    • 검정통계량 관측값:
        Z0= (X1ˉX2ˉ)σ12/n1+σ22/n2 =35328/50+6/80 =6.188527~~Z_0=\cfrac{~(\bar{X_1}-\bar{X_2})}{\sqrt{{\sigma_1}^2/n_1 + {\sigma_2}^2/n_2}~} = \cfrac{35-32}{\sqrt{8/50+6/80}~} = 6.188527

    • z0=6.188527[z0.025=1.96]|z_0=6.188527| \ge [z_{0.025}=1.96] 이므로, H0H_0를 기각할 수 있다.
      즉, 두 모집단의 평균이 다르다고 할 수 있다.


❕ 소표본

모분산을 모르는 경우

  • 가설

    1. [양측검정] H0:μ1=μ2H_0 : \mu_1=\mu_2 vs. H1:μ1μ2H_1 : \mu_1 \not= \mu_2
    2. [단측검정] H0:μ1=μ2H_0 : \mu_1 = \mu_2 vs. H1:μ1>μ2H_1 : \mu_1 > \mu_2
    3. [단측검정] H0:μ1=μ2H_0 : \mu_1 = \mu_2 vs. H1:μ1<μ2H_1 : \mu_1 < \mu_2
  • 유의수준: α=0.05\alpha = 0.05

  • 합동분산추정량: Sp2= (n11)s12+(n21)s22 n1+n22{S_p}^2 = \cfrac{~(n_1-1){s_1}^2+(n_2-1){s_2}^2~}{n_1+n_2-2}

  • 검정통계량: T= (X1ˉX2ˉ)(μ1μ2) Sp1/n1+1/n2t(n1+n22)T=\cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{S_p \cdot \sqrt{1/n_1 + 1/n_2}} \thicksim t(n_1+n_2-2)

  • 검정통계량 관측값: T0= (X1ˉX2ˉ)Sp1/n1+1/n2 T_0=\cfrac{~(\bar{X_1}-\bar{X_2})}{S_p \cdot \sqrt{1/n_1 + 1/n_2}~}

    1. t0tα/2, df|t_0| \ge t_{\alpha/2,~df} 이면 H0H_0 기각
    2. t0tα, dft_0 \ge t_{\alpha,~df} 이면 H0H_0 기각
    3. t0tzα, dft_0 \le -tz_{\alpha,~df} 이면 H0H_0 기각
  • ex.

    체중 감소 보조제의 성능을 비교하기 위해 A와 B 두 군으로 나누고 약을 먹고 6개월 후 체중 변화를 측정하였다. B약이 A약보다 더 체중감소에 효과가 좋다고 할 수 있는지 유의수준 0.05에서 검정하여라.

    • 가설: H0:μA=μBH_0 : \mu_A = \mu_B vs. H1:μA<μBH_1 : \mu_A < \mu_B

    • 유의수준: α=0.05\alpha = 0.05

    • 검정통계량 관측값: t0= (X1ˉX2ˉ)Sp1/n1+1/n2 =2.7118t_0=\cfrac{~(\bar{X_1}-\bar{X_2})}{S_p \cdot \sqrt{1/n_1 + 1/n_2}~} = -2.7118

    • z0=2.7118[t0.05, 28=1.701131]z_0=-2.7118 \le [t_{0.05,~28}=-1.701131] 이므로, H0H_0를 기각할 수 있다.
      즉, B약의 체중 감소 효과가 A약의 효과보다 크다고 할 수 있다.


❕ 대응표본



범주형 자료분석

  • 범주형 자료 분석(categorical data analysis)

    • 범주형 자료에 대한 통계적 추론 방법
    • 범주형 자료 분석은 카이제곱 검정으로 추론함
  • ex.

    1. 대선에서 각 정당의 연령대별 지지율이 지난 대선의 지지율과 동일한가?
    2. 성별에 따라서 선호하는 핸드폰 회사가 동일한가?
  • t-test와 카이제곱 검정의 차이

    • 연속형 변수의 차이에 대한 검정에 t-test를 사용
    • 명목형 변수에 대한 검정시 카이제곱 검정을 사용

🔰 적합도 검정

Goodness of Fit Test
관측된 값들이 추론하는 분포를 따르고 있는지 검정한다.

  • 한 개의 요인을 대상으로 검정한다.

  • ex.
    멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C = 1:1:2 였다고 가정해 보자. 100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자.
    ➡ 각 범주에 대해 하나의 요인인 비율에 대한 추론이 맞는지 검정하는 것이다.

  •  카이제곱 적합도 검정 

    적합도 검정은 관측된 빈도가 특정한 이론적 분포에 적합한지를 검정하는 통계적 절차로 가장 흔히 사용되는 적합도 검정은 카이제곱(χ²) 적합도 검정이다.

    • 카이제곱(χ²) 적합도 검정 예시: 주사위의 공정성 검정
      주사위 120번을 던져서 우측과 같은 실험 결과가 나왔을 때 이 주사위가 공정한 주사위라고 할 수 있는지 유의수준 0.05에서 검정해보자
    1. 가설 수립

      • H0:p1=p2=p3=p4=p5=p6= 1 6H_0: p_1=p_2=p_3=p_4=p_5=p_6=\cfrac{~1~}{6}

      • H1:piH_1: p_i 중 적어도 한 개는 같지 않다.

    2. 유의 수준 설정 : 0.05

    3. 기각역 설정 :

      • 자유도 = 범주의 개수 - 1 = 5
      • χ52=11.07{\chi_5}^2 = 11.07
    4. 검정통계량 계산 : 카이제곱(χ²) 통계량 계산

         χ2=(OiEi)2Ei~~~\chi^2 = \sum\cfrac{(O_i-E_i)^2}{E_i}

      • O는 관찰 빈도(observed frequency): 데이터로 부터 수집된 값
      • E는 기대 빈도(expected frequency): 기대값과 비슷한 개념

         χ2=(2320)220+(2020)220+(1920)220+(1820)220+(2310)220+(1720)220~~~\chi^2 = \frac{(23-20)^2}{20}+\frac{(20-20)^2}{20}+\frac{(19-20)^2}{20}+\frac{(18-20)^2}{20}+\frac{(23-10)^2}{20}+\frac{(17-20)^2}{20}
              =1.6~~~~~~~~ = 1.6

    5. 의사결정:
      검정통계량(1.6)이 기각역(11.07)보다 작으므로 귀무가설을 기각할 수 없다. 즉 주사위는 공정하지 않다고 주장할 만한 증거가 없다.


🔰 독립성 검정

Test of Independence
관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립인지)를 검정한다.

  •  카이제곱 독립성 검정 
    독립성 검정은 두 범주형 변수 사이에 통계적으로 유의한 관계가 있는지를 검정하는 데 사용되는 통계적 절차이다.

    • 카이제곱(χ²) 독립성 검정 예시
      지지하는 정당과 사는 지역(A,B,C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자.
      ➡ 하나의 요인인 사는 지역과 또 다른 요인인 지지 정당이 서로 관련이 있는지 없는지 검정한다.
    1. 가설 수립

      • H0:H_0: 지역과 지지하는 정당은 서로 독립이다.

      • H1:H_1: 지역과 지지하는 정당은 서로 독립이 아니다.

    2. 유의 수준 설정 : 0.05

    3. 기각역 설정 :

      • 자유도 = (r1)(c1)=(r-1)(c-1)= (열의수-1)×\times(행의수-1) = 2
      • χ22=5.99{\chi_2}^2 = 5.99
    4. 검정통계량 계산 : 카이제곱(χ²) 통계량 계산

         χ2=i=1rj=1c(OijEij)2Eij=5.3291~~~\chi^2 = \sum_{i=1}^r\sum_{j=1}^c\cfrac{(O_{ij}-E_{ij})^2}{E_{ij}} = 5.3291

      • p-value = 0.06963
        p-value R로 구하기
    5. 의사결정:
      검정통계량(5.3291)이 기각역(5.99)보다 작고 p-value(0.06963)가 유의수준(0.05)보다 크므로 귀무가설을 기각할 수 없다. 즉 지역과 지지하는 정당 서로 독립이다.


🔰 동질성 검정

Test of Homogeneity
서로 다른 세개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정

  • ex.
    남녀의 핸드폰 선호가 동일한지 조시하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하여라.
    • 남자와 여자는 서로 다른 모집단(Population) P1, P2P_1,~P_2에서 추출한 것으로 간주된다.
profile
ISTP(정신승리), To Be Data Scientist

0개의 댓글