[AI Bootcamp] N121 - Hypothesis Test

HYUNG JIN·2021년 7월 15일

AI T-test bootcamp doing sampling 가설검정 데이터사이언스 코드스테이츠

AI Bootcamp

목록 보기

5/17

Session Review

Descriptive Statistics (Summary Statistics)

기술 통계치(Descriptive Statistics)
e.g. count, mean, standard dev, min, 1Q, median, 3Q, max -> 데이터를 설명하는 값

👀 mean(평균)과 median(중앙값)은 언제 사용할까?
평균은 분포가 치우쳐지지 않았을 때 주로 쓰고, 중앙값은 극단적인 값이 있을 때 유용
b.c 극단치가 있을 때 평균을 계산하면 그 결과가 왜곡될 가능성이 많기 때문 -> 등수대로 줄 세워서 가운데 값을 뽑는게, 그 집단을 대표하는 값으로 더 적절하다고 봄

테크닉 기술이 아니라 묘사의 기술 -> 현재의 데이터에 대해 파악하고자 할 때 사용

시각화: Box plot, Bag plot, Violin plot etc
- Box-Whisker plot: 가장 대표적인 시각화 방법
- Bag plot: Box plot을 좀 더 다양한 변수를 포함하도록 변형한 것이나, 너무 난해해서 잘 쓰이지 않음
- Violin plot: Box plot에 분포를 반영한 것 -> 데이터마다 모양 달라짐

Inferential Statistics

추리 통계치(Inferential Statistics)
현재 데이터의 모집단에 대해 잘 알지 못할 때, 일부를 가지고 전체를 짐작해보는 것

Effective Sampling

Simple Random Sampling: 완전 무작위 추출
Systematic Sampling: 규칙을 가지고 추출
Stratified Random Sampling: 모집단을 미리 여러 그룹으로 나누고, 그 그룹별로 내에서 무작위 추출
Cluster Sampling: 모집단을 미리 여러 그룹으로 나누고, 이후 특정 그룹 전체를 무작위로 선택
-> 데이터 형태에 따라 sampling 방식 달라짐

Hypothesis Testing: 가설 검정

주어진 상황에서, 하고자 하는 주장이 맞는지 아닌지를 판정하는 과정
-> 모집단의 실제 값에 대한 sample의 통계치를 사용하여 통계적으로 유의한지 아닌지 여부 판정

❗️ 표본 평균의 표준 오차(Standard Error of the Sample Mean):
sample 수의 중요성 -> 표본의 수가 많으면 많을수록 무작위성을 고려하더라도 더 높은 신뢰성을 가짐

Student T-test

t-test process
1. 가설 수립 -> H0(귀무), H1(대립, 대안)
2. 데이터 파악(표본의 평균, 특정값)
3. 신뢰도 설정 -> 유의역의 범위와 관련 있음 (보통 95, 99% 사용)
4. P-value 몇 인가? (단측, 양측검정에 따라 판단기준 다름)
-> 단측 검정: 0.05 / 양측 검정: 0.025 *2
5. 귀무가설이 맞는지, 대립가설이 맞는지 확인

P-value의 기준

pv < 0.01(0.05): 귀무가설이 옳을 확률 1%(5%) 이하: 틀렸다
0.05< pv < 0.1: 애매함
pv > 0.1: 귀무가설이 옳을 확률 10% 이상 -> 귀무가설이 틀리지 않았을 것이다

One Sample t-test

1개의 sample 값들의 평균이 특정값과 동일한지 비교

from scipy import stats
stats.ttest_1samp(sample 데이터, 비교하려는 값)

pv가 (1-confidence(0.95 or 0.99))보다 낮은 경우, 귀무가설 기각, 대안가설 채택

One-side vs. Two-side

One-side test: 샘플 데이터의 평균이 특정값 "X" 보다 크다 or 작다 / 크지 않다 or 작지 않다
Two-side test: 샘플 데이터의 평균이 특정값 "X"와 같다 / 같지 않다 (같지 않다에는 크다, 작다 포함이므로 two-side)

Two Sample t-test

2개의 sample 값들의 평균이 서로 동일한지 비교

from scipy import stats
stats.ttest_ind(sample data1, sample data2, alternative='two side(default), greater, less')

❗️ 단측 검정을 할 경우라면, 예를 들어 ttest-ind(A, B, alternative='greater') 를 한다면
귀무가설은 "두 집단의 평균이 같다"가 아닌 "A가 B보다 작거나 같다"가 된다.
-> alternative가 대안이라는 의미라는 점에서 대안가설이 "A가 B보다 크다"이므로 귀무가설은 "A가 B보다 작거나 같다"가 됨

❓ 귀무가설 vs. 대립가설(대안가설)
❓ 정규분포

Assignment

❗️ pd.read_csv(url, se='' ...) #sp: 어떤 것으로 구분되는가 default는 comma(,)
❗️ np.random.seed() # random으로 값을 뽑을 때 키가 되는 값. 한 번 실행되면 다시 실행해도 같은 값이 나오도록 해줌. colab 기준 다른 셀에는 영향 미치지 않음