Hypothesis Test

제이브로·2021년 11월 30일

AI부트캠프 Statistics T-test hypothesis test 가설검정 기술통계치 추리통계치 코드스테이츠

AI부트캠프

목록 보기

8/32

Hypothesis Test

Statistics

1. 기술 통계치( Descriptive Statistics )

Q . 기술 통계란?
A . 수집한 데이터를 요약 묘사 설명하는 통계 기법

Descriptive(기술) : 묘사하다, 그려서 설명하다

boxplot
bagplot
violin plot
df.describe() : count, mean, std, min, 25%, 50%, 75%, max 값을 보여준다.

Mean / Median / Mode
Range
Var / SD
Kurtosis
Skewness

2. 추리 통계치( Inferential Statistics )

Q . 추리 통계란?
A . 수집한 데이터를 바탕으로 추론 예측하는 통계 기법. Sample을 추출하여 통계 추리해 전체를 추론한다.

Inferential(추리) : 무엇을 추론하다

2.1 Effective Sampling

Simple Random Sampling

모집단에서 sampling을 무작위로 하는 방법
Systematic Sampling

모집단에서 sampling을 할 때 규칙을 가지고 추출하는 방법 ex) 5, 10, 15, 20, ... 번째 데이터 선택
Stratified Random Sampling

모집단에서 미리 그룹을 나누고, 그 그룹에서 무작위로 추출하는 방법 ex) 나이대별로 나누고 해당 그룹에서 추출
Cluster Sampling

모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹을 무작위로 선택하는 방법

3. 가설 검정

Q . 가설 검정이란?
A . 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정이다.
모집단의 실제 값에 대한 sample의 통계치를 사용해서 통계적으로 유의한지 아닌지 여부를 판정한다.

'통계적으로 유의하다'란?

Q . 샘플의 사이즈가 결과에 미치는 영향은?
A . 샘플의 사이즈가 클수록 무작위성을 고려하더라도 더 높은 신뢰성을 얻는다.

3.1 표본 평균의 표준 오차 ( Standard Error of the Sample Mean )

표본의 수가 더욱 많아질수록, 추측은 더 정확해지고 (평균) 높은 신뢰도를 바탕으로 모집단에 대해 예측 할 수 있도록 함

SE : 표본평균의 표준 오차
s : 표본의 표준편차 ( sample standard deviation )
n : 표본의 수 ( sample size )

3.2 T-test

T-test 과정

귀무가설 vs 대립가설

귀무가설

내가 틀렸다는 주장

이 가설을 처음부터 버릴 것이 예상되는 가설

설정한 가설이 진실할 확률이 극히 적은 가설

우리가 알고싶은 모집단의 특성에 대한 잠정적 주장, 보편적으로 알려진 기존의 사실

대립가설

내가 증명하고 싶은 내용

지금까지 알려진 내용, 사실에 대한 반박으로 확실한 증거를 제시해야 채택되는 가설

귀무가설의 기각으로 채택되는 가설

표본에 나타난 특징이 모집단에도 적용될 거라는 주장

1. 귀무 가설 (Null Hypothesis) 를 설정
2. 대립 가설 (Alternative Hypothesis) 를 설정
3. 신뢰도를 설정 (Confidence Level)

신뢰도 : 모수가 신뢰구간 안에 포함될 확률 (보통 95, 99% 등을 사용)
모수(parameter) 뜻 : 모수는 통계학 용어이다. 어미 모(母)에 숫자 수(數)를 더해 모집단(母집단)의 특징을 나타내는 수치를 뜻한다.
신뢰도 95%란 ? 모수가 신뢰 구간 안에 포함될 확률이 95%이다.
귀무가설이 틀렸지만 우연히 성립할 확률이 5%

4. P-value를 확인

p-value란? 주어진 가설에 대해서 얼마나 근거가 있는지에 대한 값을 뜻한다.
0과 1 사이의 값으로 scale한 지표이다.

5. P-value를 바탕으로 가설에 대해 결론을 내림

일반적으로, 0.05를 기준으로 pval = 0.05 보다 작으면 귀무가설은 틀렸다( 기각한다 )

정규화 공식
평균을 빼고 표준편차로 나눠줌

3.2.1 One-Sample t-test

Q . One-Sample t-test란?
A . 1개의 sample 값들의 평균이 특정값과 동일한지 비교한다.

from scipy import stats

# ttest_1samp('Sample 데이터', '비교하려는 값')

stats.ttest_1samp(coinflips, .5)

One-side test vs Two-side test
one-side : 샘플 데이터의 평균이 'X' 보다 '크다 혹은 작다' / '크지 않다 작지 않다'를 검정
two-side : 샘플 데이터의 평균이 'X'와 '같다 / 같지 않다'