가설검정
가설검정
-
가설 검정 = 가설(Hypothesis) + 검정(Testing)
-
가설: 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측을 가설이라고 함
-
통계학에서는 특히 모수를 추정할 때 모수가 어떠하다는 증명하고 싶은 추측이나 주장을 가설이라 함
-
귀무 가설(Null hypothesis: H0)
-기존의 사실(아무것도 없다, 의미가 없다)
-대립가설과 반대되는 가설로 연구하고자 하는 가설의 반대의 가설로 귀무 가설은 연구 목적이 아님
-예) H0 : 코로나 백신이 효과가 없다, H0:μ = 0
-
대립 가설(Alternative hypothesis: H1)
-데이터로부터 나온 주장하고 싶은 가설 또는 연구의 목적으로 귀무가설의 반대
-예) H1: 코로나 백신이 효과가 있다, H0 : μ ≠ 0 or μ ≥ 0
유의수준
-
제 1종 오류: 귀무가설이 참이지만, 귀무가설을 기각하는 오류
-H0를 기각할 확률이 α라고 하면 채택하게 될 확률은 1 - α로 표시할 수 있음
제 1종 오류를 범할 확률의 최대허용 한계를 유의수준이라고 하며, α라고 표시
-
제 2종 오류: 귀무가설이 기각해야 하지만, 귀무가설을 채택하는 오류
-
검정통계량: 귀무가설이 참이라는 가정 하에 얻은 통계량
-검정 결과 대립가설을 선택하게 되면 귀무가설을 기각함
-검정결과 귀무가설을 선택하게 되면 귀무가설을 기각하지 못한다고 표현함
-
P-value: 귀무가설이 참일 확률
-0~1사이의 표준화된 지표(확률값)
-귀무가설이 참이라는 통계량이 귀무가설을 얼마나 지지 하는지를 나타낼 확률
-
기각역(reject region):귀무가설을 기각시키는 검정통계량의 관측값의 영역
-
가설 검정의 절차
- 가설 수립 (H0 : 코로나 백신이 효과가 없다 , H1 :코로나 백신이 효과가 있다)
- 유의 수준 결정: 유의 수준 α 정의
- 기각역 설정
- 검정통계량 계산
- 의사 결정
-
양측검정(two-side test): 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장
-A백신과 B백신의 코로나 면역력에는 차이가 있다
-A팀과 B팀의 평균 연봉은 차이가 있다
-
단측검정(one-side test): 한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다 처럼 한쪽 방향의 주장
-A제품의 수율이 B제품의 수율보다 크다
-A팀의 평균 연봉이 B팀의 평균 연봉보다 크다

단일 표본에 대한 가설 검정
가설:



- 예시) 커피의 카페인 함량이 140mg이라고 표기 되어 있다. 이 수치가 정확한지 확인하기 위해서 조사해본 결과 100개의 제품을 대상으로 측정한 결과 평균 138.0로 확인 되었다 표준편차가 15일 때 유의수준 0.05에서 가설 검정을 해보자

- 모평균이 가설검정 = 모분산을 모르는 경우(소표본)
가설:


가설:

- 예시) 코로나 백신 A약에 대해서 80%이상 백신효과가 나타나야 효과가 있다고 판단하고 계속해서 약을 판매할 수 있다고 하자.
100명에 대해서 조사를 한 결과 78명만 백신 효과가 있었다고 한다면 이에 대해서 유의 수준 0.05에서 검정해보자
두개의 표본에 대한 가설 검정
가설:



가설:

- 예시) 중 감소 보조제의 성능을 비교하기 위해 A와 B 두군으로 나누고 약을 먹고 6개월 후 체중 변화를 측정하였다. B약이 A약보다 더 체중감소에 효과가 좋다고 할 수 있는지 유의수준 0.05에서 검정하여라



범주형 자료분석

- 대선에서 각 정당의 연령대별 지지율이 지난 대선의 지지율과 동일한가?
- 성별에 따라서 선호하는 핸드폰 회사가 동일한가?
- t-검정과 카이제곱 검정의 차이: t-검정은 연속형 변수의 차이에 대한 검정, 명목형 변수에 대한 검정 시 카이제곱 검정을 사용
적합도 검정
- 적합도 검정(goodness of fit test): 관측된 값들이 추론하는 분포를 따르고 있는지 검정, 한 개의 요인을 대상으로 검정

- O는 관찰 빈도(observed frequency): 데이터로 부터 수집된 값
- E는 기대 빈도 (expected frequency): 기대값과 비슷한 개념
- 기대빈도는 예를 들어 남녀 1000명의 데이터에서 각 성별의 기대 빈도는 500명임
주사위 120번을 던졌을 때 각 눈이 나오는 기대빈도는 20번임
- 예시1) 주사위 120번을 던져서 우측과 같은 실험 결과가 나왔을 때 이 주사위가 공정한 주사위라고 할 수 있는지 유의수준 0.05에서 검정해보자


- 예시2) 주사위 120번을 던져서 우측과 같은 실험 결과가 나왔을 때 이 주사위가 공정한 주사위라고 할 수 있는지 유의수준
0.05에서 검정해보자

- 예시3) 멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C = 1:1:2 였다고 가정해 보자.
100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자

독립성 검정
- 독립성 검정(test of independence): 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정

- 예시) 지지하는 정당과 사는 지역(A,B,C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자



동일성 검정
-
동질성 검정(test of homogeneity): 서로 다른 세개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정
-
예시) 남녀의 핸드폰 선호가 동일한지 조시하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하여라

- 우리는 일반 적으로 그러면 어떻게 분석을 하고 있고 어떤 관점으로 분석을 해야 하는가?

- 시간에 흐음에 따라서 어떤 산업이 거래액이 증가하고 있고 어떤 업종이 비중이 떨어지는가?

상관분석
- 상관관계(correlation coefficient): 두 변수간의 함수 관계가 관계가 있는지 파악할 수 있는 측도가 상관계수임

1) 상관계수 -1 ≤ p ≤ 1
2) 상관계수가 1에 가까울수록 양의 상관계가 강함
3) 상관계수가 -1에 가까울수록 음의 상관관계가 강함
4) 상관계수가 0에 가까울수록 두 변수 간의 상관관계가 존재하지 않음
5) 상관계수가 0이라는 것은 두 변수 간에 선형 관계가 존재하지 않는다는 것임
- 표본상관관계(sample correlation coefficient)

가설검정


- 예시) A반의 학생들의 키와 몸무게를 조사하였다. 두 변수 간의 상관관계를 유의수준 0.05에서 검정해보자


