통계 3

BlackLabel·2023년 11월 9일

통계

목록 보기

3/4

가설검정

가설 검정 = 가설(Hypothesis) + 검정(Testing)
가설: 주어진 사실 또는 조사하려고 하는 사실에 대한 주장 또는 추측을 가설이라고 함
통계학에서는 특히 모수를 추정할 때 모수가 어떠하다는 증명하고 싶은 추측이나 주장을 가설이라 함
귀무 가설(Null hypothesis: H0)

-기존의 사실(아무것도 없다, 의미가 없다)
-대립가설과 반대되는 가설로 연구하고자 하는 가설의 반대의 가설로 귀무 가설은 연구 목적이 아님
-예) H0 : 코로나 백신이 효과가 없다, H0:μ = 0
대립 가설(Alternative hypothesis: H1)

-데이터로부터 나온 주장하고 싶은 가설 또는 연구의 목적으로 귀무가설의 반대
-예) H1: 코로나 백신이 효과가 있다, H0 : μ ≠ 0 or μ ≥ 0

유의수준

제 1종 오류: 귀무가설이 참이지만, 귀무가설을 기각하는 오류

-H0를 기각할 확률이 α라고 하면 채택하게 될 확률은 1 - α로 표시할 수 있음
제 1종 오류를 범할 확률의 최대허용 한계를 유의수준이라고 하며, α라고 표시
제 2종 오류: 귀무가설이 기각해야 하지만, 귀무가설을 채택하는 오류
검정통계량: 귀무가설이 참이라는 가정 하에 얻은 통계량

-검정 결과 대립가설을 선택하게 되면 귀무가설을 기각함
-검정결과 귀무가설을 선택하게 되면 귀무가설을 기각하지 못한다고 표현함
P-value: 귀무가설이 참일 확률
-0~1사이의 표준화된 지표(확률값)
-귀무가설이 참이라는 통계량이 귀무가설을 얼마나 지지 하는지를 나타낼 확률
기각역(reject region):귀무가설을 기각시키는 검정통계량의 관측값의 영역
가설 검정의 절차

가설 수립 (H0 : 코로나 백신이 효과가 없다 , H1 :코로나 백신이 효과가 있다)
유의 수준 결정: 유의 수준 α 정의
기각역 설정
검정통계량 계산
의사 결정

양측검정(two-side test): 대립가설의 내용이 같지 않다 또는 차이가 있다 등의 양쪽 방향의 주장

-A백신과 B백신의 코로나 면역력에는 차이가 있다
-A팀과 B팀의 평균 연봉은 차이가 있다
단측검정(one-side test): 한쪽만 검증하는 방식으로 대립가설의 내용이 크다 또는 작다 처럼 한쪽 방향의 주장

-A제품의 수율이 B제품의 수율보다 크다
-A팀의 평균 연봉이 B팀의 평균 연봉보다 크다

단일 표본에 대한 가설 검정

모평균 가설 검정 - 모분산을 아는 경우

가설:

예시) 커피의 카페인 함량이 140mg이라고 표기 되어 있다. 이 수치가 정확한지 확인하기 위해서 조사해본 결과 100개의 제품을 대상으로 측정한 결과 평균 138.0로 확인 되었다 표준편차가 15일 때 유의수준 0.05에서 가설 검정을 해보자

모평균이 가설검정 = 모분산을 모르는 경우(소표본)

가설:

모비율 가설검정

가설:

예시) 코로나 백신 A약에 대해서 80%이상 백신효과가 나타나야 효과가 있다고 판단하고 계속해서 약을 판매할 수 있다고 하자.
100명에 대해서 조사를 한 결과 78명만 백신 효과가 있었다고 한다면 이에 대해서 유의 수준 0.05에서 검정해보자

두개의 표본에 대한 가설 검정

대표본 - 모분산을 아는 경우

가설:

소표본 - 모분산을 모르는 경우

가설:

예시) 중 감소 보조제의 성능을 비교하기 위해 A와 B 두군으로 나누고 약을 먹고 6개월 후 체중 변화를 측정하였다. B약이 A약보다 더 체중감소에 효과가 좋다고 할 수 있는지 유의수준 0.05에서 검정하여라

대응 비교

범주형 자료분석

범주형 자료(categorical data): 관측된 결과를 어떤 속성에 따라 몇 개의 범주로 분류 시켜 도수로 주어진 데이터
범주형 자료 분석(categorical data analysis)
-범주형 자료에 대한 통계적 추론 방법
-범주형 자료 분석은 카이제곱 검정으로 추론함
예시)

대선에서 각 정당의 연령대별 지지율이 지난 대선의 지지율과 동일한가?
성별에 따라서 선호하는 핸드폰 회사가 동일한가?

t-검정과 카이제곱 검정의 차이: t-검정은 연속형 변수의 차이에 대한 검정, 명목형 변수에 대한 검정 시 카이제곱 검정을 사용

적합도 검정

적합도 검정(goodness of fit test): 관측된 값들이 추론하는 분포를 따르고 있는지 검정, 한 개의 요인을 대상으로 검정

O는 관찰 빈도(observed frequency): 데이터로 부터 수집된 값
E는 기대 빈도 (expected frequency): 기대값과 비슷한 개념
기대빈도는 예를 들어 남녀 1000명의 데이터에서 각 성별의 기대 빈도는 500명임
주사위 120번을 던졌을 때 각 눈이 나오는 기대빈도는 20번임

예시1) 주사위 120번을 던져서 우측과 같은 실험 결과가 나왔을 때 이 주사위가 공정한 주사위라고 할 수 있는지 유의수준 0.05에서 검정해보자

예시2) 주사위 120번을 던져서 우측과 같은 실험 결과가 나왔을 때 이 주사위가 공정한 주사위라고 할 수 있는지 유의수준
0.05에서 검정해보자

예시3) 멘델의 유전 법칙에 부합하는지 검사하기 위해 테스트할 때, 완두콩의 잡종 비율이 A:B:C = 1:1:2 였다고 가정해 보자.
100개의 콩을 조사한 결과 A가 25 B가 20 C가 55개 였다면 앞선 가정이 맞는지 유의수준 0.05에서 검정해보자

독립성 검정

독립성 검정(test of independence): 관측된 값을 두 개의 요인으로 분할하고 각 요인이 다른 요인에 영향을 끼치는지(독립)를 검정

예시) 지지하는 정당과 사는 지역(A,B,C구)은 관련이 있는지 알아보기 위해서 1000명을 뽑아서 조사한 자료가 있을 때, 지지 정당과 사는 지역이 독립인지 유의수준 0.05에서 검정해보자

동일성 검정

동질성 검정(test of homogeneity): 서로 다른 세개 이상의 모집단으로 관측된 값들이 범주내에서 동일한 비율을 나타내는지 검정
예시) 남녀의 핸드폰 선호가 동일한지 조시하기 위해서 남자 100명, 여자 200명을 조사하였다. 유의 수준 0.05에서 동일한지 조사하여라

우리는 일반 적으로 그러면 어떻게 분석을 하고 있고 어떤 관점으로 분석을 해야 하는가?

시간에 흐음에 따라서 어떤 산업이 거래액이 증가하고 있고 어떤 업종이 비중이 떨어지는가?

상관분석

상관관계(correlation coefficient): 두 변수간의 함수 관계가 관계가 있는지 파악할 수 있는 측도가 상관계수임

1) 상관계수 -1 ≤ p ≤ 1
2) 상관계수가 1에 가까울수록 양의 상관계가 강함
3) 상관계수가 -1에 가까울수록 음의 상관관계가 강함
4) 상관계수가 0에 가까울수록 두 변수 간의 상관관계가 존재하지 않음
5) 상관계수가 0이라는 것은 두 변수 간에 선형 관계가 존재하지 않는다는 것임