[zero-base/] DS Part 7. 통계심화 - 48일차 스터디 노트

손윤재·2024년 2월 8일

Statistics 스터디 노트 제로베이스 DS 22기 통계

제로베이스 DS 22기

목록 보기

49/55

통계분석

가설검정

가설이란?
- 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측이다.
- 통계학에서는 특히 모수를 추청 할 때 모수가 어떠하다는 증명하고 싶은 추측이나 주장을 가설이라고 한다.

[가설검정(Hypothesis Testing) 절차]

가설수립
귀무가설(NULL hypothesis) $H_0$ : 코로나 백신이 효과가 없다.
대립가설(Alternative hypothesis) $H_1$ : 코로나 백신이 효과가 있다.

유의수준 설정: 유의수준 $\alpha$ 정의

기각역(Reject Region) 설정

검정통계량 계산

의사 결정

👉 귀무 가설(Null hypothesis), $H_0$

기존의 사실(아무것도 없다, 의미가 없다)
대립가설과 반대되는 가설
연구하고자 하는 가설의 반대 가설로 귀무 가설은 연구 목적이 아님
Ex) $\textcolor{blue}{H_0}$ : 코로나 백신이 효과가 없다 $,~\textcolor{blue}{H_0}: \mu=0$

👉 대립 가설(Alternative hypothesis), $H_1$

데이터로부터 나온 주장하고 싶은 가설 또는 연구의 목적이 되는 (밝혀내야 할) 가설
귀무가설의 반대
Ex) $\textcolor{blue}{H_1}$ : 코로나 백신이 효과가 있다 $,~\textcolor{blue}{H_1} : \mu \not= 0~~or~~\mu \ge 0$

👉 제1종 오류(Type 1 Error)

귀무가설이 실제로는 참이지만, 귀무가설을 기각하는 오류
$H_0$ 를 기각할 확률이 $\alpha$ 라고 하면 반대로 채택하게 될 확률은 $1-\alpha$ 로 표시할 수 있다.
제 1종오류를 범할 확률의 최대 허용 한계를 유의수준이라고 하며 $\alpha$ 라고 표시한다.
유의수준은 신뢰구간에 반대되는 개념이다.

👉 제2종 오류(Type 2 Error)

귀무가설을 기각해야 하지만, 귀무가설을 기각하지 않은 오류

👉 검정통계량

귀무가설이 참이라는 가정하에 얻은 통계량
검정결과 귀무가설을 기각할 충분한 근거가 있어 대립가설 $H_1$ 을 선택하게 되면 귀무가설 $H_0$ 를 기각(reject)한다.
검정결과 귀무가설을 기각할 충분한 근거가 없어 귀무가설 $H_0$ 을 선택하게 되면 귀무가설을 기각하지 못한다고 표현한다.

👉 P-value

귀무가설이 참일 확률로 0~1사이의 표준화된 지표(확률값) 이다.
ex> 0.01, 0.05, 0.1,…
귀무가설이 참이라는 가정하에 통계량이 귀무가설을 얼마나 지지하는지를 나타내는 확률이다.
계산된 p-value를 선택한 유의수준과 비교한다. 보통 유의수준은 0.05로 선택되는데 만약 계산된 p-value가 유의수준보다 작으면 귀무가설을 기각하고 대립가설을 채택한다. 그렇지 않으면 귀무가설을 기각할 수 없다.

👉 기각역(Reject Region)

귀무가설을 기각시키는 검정통계량의 관측값의 영역
검정통계량이 기각역 내에 포함된다면 귀무가설 $H_0$ 를 기각할 수 있다.

👉 양측검정(two-tide test)

대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장
ex.
- A백신과 B백신의 코로나 면역력에는 차이가 있다
- A팀과 B팀의 평균 연봉은 차이가 있다
양측 검정에서는 분포의 두 꼬리(tails) 양쪽에 기각역이 위치한다. $~\Rightarrow~Z_{\frac{\alpha}{2}}$

👉 단측검정(one-side test)

한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다 처럼 한쪽 방향의 주장
ex.
- A제품의 수율이 B제품의 수율보다 크다
- A팀의 평균 연봉이 B팀의 평균 연봉보다 크다
단측 검정에서는 분포의 한쪽 꼬리에만 기각역이 위치한다. $~\Rightarrow~Z_{\alpha}$

🔰 단일 표본

❕ 모평균

✅ 모분산을 아는 경우 : $Z$ 분포

가설
1. [양측검정] $H_0 : \mu=\mu_0$ vs. $H_1 : \mu \not= \mu_0$
2. [단측검정] $H_0 : \mu \le \mu_0$ vs. $H_1 : \mu > \mu_0$
3. [단측검정] $H_0 : \mu \ge \mu_0$ vs. $H_1 : \mu < \mu_0$

유의수준: $\alpha = 0.05$
검정통계량: $Z=\cfrac{~\bar X-\mu~}{\sigma/ \sqrt{n~}} \thicksim N(0,~1)$
검정통계량 관측값: $Z_0=\cfrac{~\bar X-\mu_0~}{\sigma/ \sqrt{n~}}$
1. $|z_0| \ge z_{\alpha/2}$ 이면 $H_0$ 기각
2. $z_0 \ge z_{\alpha}$ 이면 $H_0$ 기각
3. $z_0 \le -z_{\alpha}$ 이면 $H_0$ 기각
ex.

커피의 카페인 함량이 140mg이라고 표기 되어 있다. 이 수치가 정확한지 확인하기 위해서 조사해본 결과 100개의 제품을 대상으로 측정한 결과 평균 138.0로 확인 되었다. 표준편차가 15일 때 유의수준 0.05에서 가설 검정을 해보자.
- 가설: $H_0 : \mu = 140$ vs. $H_1 : \mu \not= 140$
- 유의수준: $\alpha = 0.05$
- 양측검정하면, $z_0=\cfrac{~\bar X-\mu_0~}{\sigma/ \sqrt{n~}} = \cfrac{138-140}{15/10} = - \cfrac{2}{1.5} = -1.3333$
- $|z_0=-1.3333| \le [z_{0.025}=1.96]$ 이므로, $H_0$ 를 기각할 수 없다. 즉, 커피의 카페인 함량이 140이 아니라고 할 수 없다.

✅ 모분산을 모르는 경우, 소표본 $(n \le 30)$ : $T$ 분포

가설
1. [양측검정] $H_0 : \mu=\mu_0$ vs. $H_1 : \mu \not= \mu_0$
2. [단측검정] $H_0 : \mu \le \mu_0$ vs. $H_1 : \mu > \mu_0 ~~~\Rightarrow~~~$ 오른쪽 단측검정
3. [단측검정] $H_0 : \mu \ge \mu_0$ vs. $H_1 : \mu < \mu_0 ~~~\Rightarrow~~~$ 왼쪽 단측검정
유의수준: $\alpha = 0.05$
검정통계량: $T=\cfrac{~\bar X-\mu~}{s/ \sqrt{n~}} \thicksim t(n-1)$
검정통계량 관측값: $t_0=\cfrac{~\bar X-\mu_0~}{s/ \sqrt{n~}}$
1. $|t_0| \ge t_{\alpha/2,~df}$ 이면 $H_0$ 기각
2. $t_0 \ge t_{\alpha,~df}$ 이면 $H_0$ 기각
3. $t_0 \le -t_{\alpha,~df}$ 이면 $H_0$ 기각

❕ 모비율

가설
1. [양측검정] $H_0 : \hat p = p_0$ vs. $H_1 : \hat p \not= p_0$
2. [단측검정] $H_0 : \hat p \le p_0$ vs. $H_1 : \hat p > p_0$
3. [단측검정] $H_0 : \hat p \ge p_0$ vs. $H_1 : \hat p < p_0$
유의수준: $\alpha = 0.05$
검정통계량: $Z=\cfrac{~\hat p-p~}{\sqrt{p(1-p)/n~}} \thicksim N(0,~1)$
검정통계량 관측값: $Z_0=\cfrac{~~\hat p-p_0~}{\sqrt{p_0(1-p_0)/n~}}$
1. $|z_0| \ge z_{\alpha/2}$ 이면 $H_0$ 기각
2. $z_0 \ge z_{\alpha}$ 이면 $H_0$ 기각
3. $z_0 \le -z_{\alpha}$ 이면 $H_0$ 기각
ex.

코로나 백신 A약에 대해서 80%이상 백신효과가 나타나야 효과가 있다고 판단하고 계속해서 약을 판매할 수 있다고 하자. 100명에 대해서 조사를 한 결과 78명만 백신 효과가 있었다고 한다면 이에 대해서 유의 수준 0.05에서 검정해보자.
- 가설: $H_0 : \hat p \le \frac{80}{100}$ vs. $H_1 : \hat p > \frac{80}{100}$
- 유의수준: $\alpha = 0.05$
- 양측검정하면, $z_0=\cfrac{~\hat p-p_0~}{\sqrt{p_0(1-p_0)/n~}} = \cfrac{0.8-0.78}{\sqrt{0.8(0.2)/100}~} = \cfrac{1}{2} = 0.5$
- $[z_0=0.5] \le [z_{0.05}=1.69]$ 이므로, $H_0$ 를 기각할 수 없다.

🔰 두개 표본

두 표본은 등분산이고 서로 독립이어야 한다. $\thicksim iid$

❕ 대표본

모분산을 아는 경우

가설
1. [양측검정] $H_0 : \mu_1=\mu_2$ vs. $H_1 : \mu_1 \not= \mu_2$
2. [단측검정] $H_0 : \mu_1 = \mu_2$ vs. $H_1 : \mu_1 > \mu_2$
3. [단측검정] $H_0 : \mu_1 = \mu_2$ vs. $H_1 : \mu_1 < \mu_2$
유의수준: $\alpha = 0.05$
검정통계량: $Z=\cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{\sqrt{{\sigma_1}^2/n_1 + {\sigma_2}^2/n_2}} \thicksim N(0,~1)$
검정통계량 관측값: $Z_0=\cfrac{~(\bar{X_1}-\bar{X_2})}{\sqrt{{\sigma_1}^2/n_1 + {\sigma_2}^2/n_2}~}$
1. $|z_0| \ge z_{\alpha/2}$ 이면 $H_0$ 기각
2. $z_0 \ge z_{\alpha}$ 이면 $H_0$ 기각
3. $z_0 \le -z_{\alpha}$ 이면 $H_0$ 기각
ex.

모집단1에서 추출한 표본의 $\bar{X_1}: 35,~~{\sigma_1}^2: 8$ 이고 $n_1$ 이 50, 모집단2에서 추출한 표본의 $\bar{X_2}: 32,~~{\sigma_2}^2: 6$ 이고 $n_2$ 이 80일 때 두 모집단의 평균이 서로 다르다고 할 수 있는지 유의 수준 0.05에서 검정해보자.
- 가설: $H_0 : \mu_1 = \mu_2$ vs. $H_1 : \mu_1 \not= \mu_2$
- 유의수준: $\alpha = 0.05$
- 검정통계량 관측값:
  $~~Z_0=\cfrac{~(\bar{X_1}-\bar{X_2})}{\sqrt{{\sigma_1}^2/n_1 + {\sigma_2}^2/n_2}~} = \cfrac{35-32}{\sqrt{8/50+6/80}~} = 6.188527$
- $|z_0=6.188527| \ge [z_{0.025}=1.96]$ 이므로, $H_0$ 를 기각할 수 있다.
  즉, 두 모집단의 평균이 다르다고 할 수 있다.

❕ 소표본

모분산을 모르는 경우

가설
1. [양측검정] $H_0 : \mu_1=\mu_2$ vs. $H_1 : \mu_1 \not= \mu_2$
2. [단측검정] $H_0 : \mu_1 = \mu_2$ vs. $H_1 : \mu_1 > \mu_2$
3. [단측검정] $H_0 : \mu_1 = \mu_2$ vs. $H_1 : \mu_1 < \mu_2$
유의수준: $\alpha = 0.05$
합동분산추정량: ${S_p}^2 = \cfrac{~(n_1-1){s_1}^2+(n_2-1){s_2}^2~}{n_1+n_2-2}$
검정통계량: $T=\cfrac{~(\bar{X_1}-\bar{X_2})-(\mu_1-\mu_2)~}{S_p \cdot \sqrt{1/n_1 + 1/n_2}} \thicksim t(n_1+n_2-2)$
검정통계량 관측값: $T_0=\cfrac{~(\bar{X_1}-\bar{X_2})}{S_p \cdot \sqrt{1/n_1 + 1/n_2}~}$
1. $|t_0| \ge t_{\alpha/2,~df}$ 이면 $H_0$ 기각
2. $t_0 \ge t_{\alpha,~df}$ 이면 $H_0$ 기각
3. $t_0 \le -tz_{\alpha,~df}$ 이면 $H_0$ 기각
ex.

체중 감소 보조제의 성능을 비교하기 위해 A와 B 두 군으로 나누고 약을 먹고 6개월 후 체중 변화를 측정하였다. B약이 A약보다 더 체중감소에 효과가 좋다고 할 수 있는지 유의수준 0.05에서 검정하여라.
- 가설: $H_0 : \mu_A = \mu_B$ vs. $H_1 : \mu_A < \mu_B$
- 유의수준: $\alpha = 0.05$
- 검정통계량 관측값: $t_0=\cfrac{~(\bar{X_1}-\bar{X_2})}{S_p \cdot \sqrt{1/n_1 + 1/n_2}~} = -2.7118$
- $z_0=-2.7118 \le [t_{0.05,~28}=-1.701131]$ 이므로, $H_0$ 를 기각할 수 있다.
  즉, B약의 체중 감소 효과가 A약의 효과보다 크다고 할 수 있다.

❕ 대응표본

범주형 자료분석

범주형 자료 분석(categorical data analysis)
- 범주형 자료에 대한 통계적 추론 방법
- 범주형 자료 분석은 카이제곱 검정으로 추론함
ex.
1. 대선에서 각 정당의 연령대별 지지율이 지난 대선의 지지율과 동일한가?
2. 성별에 따라서 선호하는 핸드폰 회사가 동일한가?
t-test와 카이제곱 검정의 차이
- 연속형 변수의 차이에 대한 검정에 t-test를 사용
- 명목형 변수에 대한 검정시 카이제곱 검정을 사용

🔰 적합도 검정

Goodness of Fit Test
관측된 값들이 추론하는 분포를 따르고 있는지 검정한다.

한 개의 요인을 대상으로 검정한다.
ex.
멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C = 1:1:2 였다고 가정해 보자. 100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자.
➡ 각 범주에 대해 하나의 요인인 비율에 대한 추론이 맞는지 검정하는 것이다.
카이제곱 적합도 검정

적합도 검정은 관측된 빈도가 특정한 이론적 분포에 적합한지를 검정하는 통계적 절차로 가장 흔히 사용되는 적합도 검정은 카이제곱(χ²) 적합도 검정이다.
- 카이제곱(χ²) 적합도 검정 예시: 주사위의 공정성 검정
  주사위 120번을 던져서 우측과 같은 실험 결과가 나왔을 때 이 주사위가 공정한 주사위라고 할 수 있는지 유의수준 0.05에서 검정해보자
1. 가설 수립
  - $H_0: p_1=p_2=p_3=p_4=p_5=p_6=\cfrac{~1~}{6}$
  - $H_1: p_i$ 중 적어도 한 개는 같지 않다.
2. 유의 수준 설정 : 0.05
3. 기각역 설정 :
  - 자유도 = 범주의 개수 - 1 = 5
  - ${\chi_5}^2 = 11.07$
4. 검정통계량 계산 : 카이제곱(χ²) 통계량 계산
  
  $~~~\chi^2 = \sum\cfrac{(O_i-E_i)^2}{E_i}$
  - O는 관찰 빈도(observed frequency): 데이터로 부터 수집된 값
  - E는 기대 빈도(expected frequency): 기대값과 비슷한 개념
  $~~~\chi^2 = \frac{(23-20)^2}{20}+\frac{(20-20)^2}{20}+\frac{(19-20)^2}{20}+\frac{(18-20)^2}{20}+\frac{(23-10)^2}{20}+\frac{(17-20)^2}{20}$
  $~~~~~~~~ = 1.6$
5. 의사결정:
  검정통계량(1.6)이 기각역(11.07)보다 작으므로 귀무가설을 기각할 수 없다. 즉 주사위는 공정하지 않다고 주장할 만한 증거가 없다.

🔰 독립성 검정

Test of Independence
관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립인지)를 검정한다.

카이제곱 독립성 검정
독립성 검정은 두 범주형 변수 사이에 통계적으로 유의한 관계가 있는지를 검정하는 데 사용되는 통계적 절차이다.
- 카이제곱(χ²) 독립성 검정 예시
  지지하는 정당과 사는 지역(A,B,C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자.
  ➡ 하나의 요인인 사는 지역과 또 다른 요인인 지지 정당이 서로 관련이 있는지 없는지 검정한다.
1. 가설 수립
  - $H_0:$ 지역과 지지하는 정당은 서로 독립이다.
  - $H_1:$ 지역과 지지하는 정당은 서로 독립이 아니다.
2. 유의 수준 설정 : 0.05
3. 기각역 설정 :
  - 자유도 = $(r-1)(c-1)=$ (열의수-1) $\times$ (행의수-1) = 2
  - ${\chi_2}^2 = 5.99$
4. 검정통계량 계산 : 카이제곱(χ²) 통계량 계산
  
  $~~~\chi^2 = \sum_{i=1}^r\sum_{j=1}^c\cfrac{(O_{ij}-E_{ij})^2}{E_{ij}} = 5.3291$
  - p-value = 0.06963
    p-value R로 구하기
5. 의사결정:
  검정통계량(5.3291)이 기각역(5.99)보다 작고 p-value(0.06963)가 유의수준(0.05)보다 크므로 귀무가설을 기각할 수 없다. 즉 지역과 지지하는 정당 서로 독립이다.

🔰 동질성 검정

Test of Homogeneity
서로 다른 세개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정

ex.
남녀의 핸드폰 선호가 동일한지 조시하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하여라.
- 남자와 여자는 서로 다른 모집단(Population) $P_1,~P_2$ 에서 추출한 것으로 간주된다.

손윤재

ISTP(정신승리), To Be Data Scientist

이전 포스트

[zero-base/] DS Part 7. 통계기본 - 47일차 스터디 노트

다음 포스트

[zero-base/] DS Part 7. 통계심화 - 48일차 스터디 노트

제로베이스 DS 22기

통계분석

가설검정

👉 귀무 가설(Null hypothesis), $H_0$

👉 대립 가설(Alternative hypothesis), $H_1$

👉 제1종 오류(Type 1 Error)

👉 제2종 오류(Type 2 Error)

👉 검정통계량

👉 P-value

👉 기각역(Reject Region)

👉 양측검정(two-tide test)

👉 단측검정(one-side test)

🔰 단일 표본

❕ 모평균

❕ 모비율

🔰 두개 표본

❕ 대표본

❕ 소표본

❕ 대응표본

범주형 자료분석

🔰 적합도 검정

🔰 독립성 검정

🔰 동질성 검정

[zero-base/] DS Part 7. 통계기본 - 47일차 스터디 노트

[zero-base/] DS Part 7. 통계심화 - 49일차 스터디 노트

0개의 댓글

[zero-base/] DS Part 7. 통계심화 - 48일차 스터디 노트

제로베이스 DS 22기

통계분석

가설검정

👉 귀무 가설(Null hypothesis), H0H_0H0​

👉 대립 가설(Alternative hypothesis), H1H_1H1​

👉 제1종 오류(Type 1 Error)

👉 제2종 오류(Type 2 Error)

👉 검정통계량

👉 P-value

👉 기각역(Reject Region)

👉 양측검정(two-tide test)

👉 단측검정(one-side test)

🔰 단일 표본

❕ 모평균

❕ 모비율

🔰 두개 표본

❕ 대표본

❕ 소표본

❕ 대응표본

범주형 자료분석

🔰 적합도 검정

🔰 독립성 검정

🔰 동질성 검정

[zero-base/] DS Part 7. 통계기본 - 47일차 스터디 노트

[zero-base/] DS Part 7. 통계심화 - 49일차 스터디 노트

0개의 댓글

👉 귀무 가설(Null hypothesis), $H_0$

👉 대립 가설(Alternative hypothesis), $H_1$