분석기법 선택

- 모수통계 : 모집단이 정규분포를 따른다는 가정하에 사용, 데이터분석가는 주로 모수통계 진행, 평균&분산 등의 값을 알고 있다는 가정 하에 진행하는 통계분석
- 비모수통계 : 모집단이 정규분포가 아닐 때 사용, 표본의 크기가 충분히 크지 않은 소규모 실험에 해당, 평균&분산 등의 값을 가정하지 않고 진행하는 통계분석
A/B TEST
- 마케팅 고객데이터 분석 중 가장 널리 사용되는 방법
- 고객의 니즈파악 및 최소 투자로 최대 이익을 창출하고자(ROI상승) 하는 것에 목적
- UI/UX 개선, 전환율 증가, 매출 증가
- 프로세스
-현행 데이터 탐색
-가설 설정 : KPI 전환율 증가를 위한 귀무가설, 대립가설 설정
-유의수준 설계 : 귀무가설이 맞을 때 오류를 얼마나 허용할 것인지 설정
-테스트 설계 및 실행 : 대조군(현재 버전), 실험군(새 버전) 두 그룹으로 분리
-테스트 결과 분석 : 검정통계량 분석, p-value를 통해 유의미한 차이가 있는지 확인
- 주의사항
-적절한 표본 크기
-하나의 변수만 변경 : 두 가지 이상의 변수를 동시에 변경하면 어떤 변수가 영향을 미쳤는지 파악할 수 없음
-무작위성
-적절한 분석 방법
-테스트 결과의 의미 : 실제로 의미있는 결과인지 한번 더 생각
-정해진 기간 동안 진행 : 동일한 기간으로 진행
유의수준(α)
- 귀무가설이 맞을 때 기각할 확률
- 범용적 기준 : 0.05(5%), 0.01(1%), 0.10(10%)
- 신뢰도의 반대 개념 : 95%의 신뢰도를 기준으로 한다면 0.05값이 유의수준
검정통계량
- 귀무가설을 채택 또는 기각하기 위해 사용하는 확률변수
- 0과 1 사이의 값
- 표본 평균, 비율, 상관 계수 간의 차이 등 다양한 형태를 취할 수 있음
- 검정방식의 선택은 가설과 데이터 종류에 따라 달라짐

p-value
- Probability-value 의 줄임말로 어떠한 사건이 우연하게 발생할 확률
- 0 이상이고 1 이하의 값
- 작은 경우에 우연히 일어날 가능성이 거의 없어 대립가설을 채택
- p-value가 0.05 보다 작다 = 우연히 일어났을 가능성이 거의 없다 = 인과관계가 있다고 추정 = 대립가설 채택
- 유의 수준을 설정하고, p-value를 도출해서 의미 해석