1. 가설 검정
1.1 모집단과 표본
- 모집단 : 우리가 알고 싶은 대상 전체 영역(데이터)
- 표본 : 그 대상의 일부 데이터
우리는 일부분으로 전체를 추정하고자 한다
-
모집단에 대한 가설 수립
- 가설은 보통 X와Y의 관계 표현
- X에 따라 Y가 차이가 있다
- X와 Y는 관계가 있다
- 표본을 가지고 가설이 진짜 그러한지 검증
- 예시 - 어느 시험에서 점수를 80점 받았다. 잘본걸까?
- 만약 분포를 안다면, 판단이 가능하다 -> 흔한 결과인지, 드문 결과인지
-
비즈니스 이해단계에서
- 비즈니스 문제로부터 우리의 관심사 (Y)를 도출하고
- Y에 영향을 주는 요인(X)들을 뽑아서 초기 가설 수립
1.2 귀무가설과 대립가설
귀무가설 H0
대립가설 H1
1.3 통계적 검정
표본으로부터 대립가설을 확인하고, 모집단에서도 맞을 것이라 주장
- 대립가설 : 매장지역에 따라 수요량이 차이가 있다
- 귀무가설 : 매장지역에 따라 수요량에 차이가 없다
차이의 값이 큰지 작은지는 어떻게 판단하는가?
-
분포와 판단 기준이 필요
- 차이값 8로부터 p-value 계산(차이값이 클수록 p-value값이 작아짐)
- 판단 기준(유의수준) : 0.05(5%) 혹은 좀 더 보수적인 기준으로 0.01(1%) 사용
- 0.05보다는 p-value가 작아야 차이가 있다고 판단
-
우리의 관심사가
- A매장과 B매장 중 어디의 수요량이 더 큰가? : 단측검정
- 매장 간에 수요량 차이가 있나? : 양측 검정
1.4 검정 통계량
- 검정하기 위한 차이값 (차이가 있는지 없는지 확인하기 위한 값)
- t 통계량
- x^2 통계량(카이제곱 통계량)
- f 통계량
이들은 각각 기준 대비 차이로 인해 계산
- 계산된 통계량 -> 각자의 분포를 가짐
- 분포를 통해서 그 값이 (차이가) 큰지, 작은지 판단 가능
- 이를 쉽게 판단할 수 있도록 계산해준것이 p-value