Chapter03 통계적 실험과 유의성검정
전통적인 통계추론 과정
[출처: 데이터 과학을 위한 통계]
3.1 A/B 검정
1. 용어 정리
- 처리(treatment): 어떤 대산에 주어지는 특별한 환경이나 조건
- 처리군(treatment group): 특정 처리에 노출된 대상들의 집단
- 대조군(control group): 어떤 처리도 하지 않은 대상들의 집단
- 임의화(randomization): 처리를 적용할 대상을 임의로 결정하는 과정
- 대상(subject): 처리를 적용할 개체 대상
- 검정통계량(test statistic): 처리 효과를 측정하기 위한 지표
2. A/B 검정은 언제 필요할까?
- A/B 검정은 두가지 처리 방법, 제품, 절차 중 어느 쪽이 다른 쪽보다 우원하다는 것을 입증하기 위해 실험군을 두 그룸으로 나누어 진행하는 실험
ex)
- 암을 더 효과적으로 억제하는 두 가지 치료법을 검정한다.
- 두 가지 가격을 검정하여 더 많은 순이익을 산출하는 쪽을 결정한다.
- 두 대의 인터넷 광고를 검정하여 어느 것이 더 높은 전환율을 얻을지 판단한다.
3.1.1 대조군은 왜 필요할까?
- 일반적인 A/B 검정 실험에서는 미리 하나의 측정 지표를 결정해야 한다.
- 즉 단일 지표 또는 검정 통계량을 사전에 미리 정해놓아야 한다.
- 실험을 수행한 뒤 나중에 검정통계량을 선택한다면 연구자 편향이라는 함정에 빠지게 된다.
- 따라서 '모든 다른 것들은 동일하다'라는 대조군이 존재한 환경에서 실험이 수행되어야 한다.
3.1.2 왜 하필 A/B일까? C, D, ... 가 아니라?
3.2 가설검정
1. 용어정리
- 귀무가설(null hypothesis): 우연 때문이라는 가성
- 대립가설(alternative hypothesis): 귀무가설과의 대조
- 일원검정(one-way test): 한 방향으로만 우연히 일어날 확률을 계산하는 가설검정
- 이원검정(two-way test): 양방향으로 우연히 일어날 확률을 계산하는 가설검정
2. 들어가며
- 가설검정(hypothesis test) 또는 유의성검정(significance test)은 전통적인 통계 분석 방법
- 목적은 관찰된 효과가 우연에 의한 것인지 여부를 알아내는 것
3. 가설검정
- 통계적 가설검정은 연구자가 랜덤하게 우연히 일어난 일에 속지 않도록 보호하기 위한 방법으로 개발된 것
- 통계 가설검정은 그룹 A와 그룹B 사이에서 보이는 차이가 우연에 의한 것인지 평가하기 위해 A/B 검정이나 더 나아가 그 외 여러 무작위 실험을 포함하는 분석을 의미
3.2.1 귀무가설
1. 가설 검정의 논리
인간은 실제로 우연히 발생한 일이라도 그것이 흔하지 않다면, 그것에 원가 의미가 있을 것이라고 해석하는 경향을 가지고 있다. 그러므로 실험에서 얻은 그룹 간의 차이가 무작위로 얻을 수 있는 합리적인 수중과는 극단적으로 다르다는 증거가 필요하다.
2. 귀무 가설
- 그룹들이 보이는 결과는 서로 동일하며, 그룹 간의 차이는 우연에 의한 결과하는 것을 기본 가정으로 설정
- 결국 귀무 가설이 틀렸다는 것을 입증하여, A그룹과 B 그룹 간의 차이가 우연이 아니라는 것을 보여준다.
3.2.2 대립가설
- 귀무가설과 대입가설이 모든 가능성을 설명할 수 있어야 한다.
귀무 가설: 그룹 A와 그룹 B의 평균에는 차이가 없다.
대립 가설: A는 B와 다르다.
귀무 가설: A <= B
대립 가설: A > B
귀무 가설: B는 A보다 x% 더 크지 않다.
대립 가설: B는 A보다 x% 크다.
3.2.3 일원/이원 가설검정
1. 일원 가설 검정
- 방향성을 고려한(단방향) 대립 가설 필요할 경우 (= B는 A보다 낫다)
- 일원(또는 한쪽 꼬리) 가설 검정 사용
- 즉 우연에 의한 극단적인 결과에 대해 한 방향만 고려하여 p값 계산
2. 이원 가설 검정
- 어느 쪽으로도 속지 않도록(양방향) 대립 가설 필요할 경우 (= A는 B와 다르며 더 크거나 더 작을 수 있음)
- 이원(또는 양쪽 꼬리) 가설 검정 사용
- 즉 우연에 의한 극단적인 결과가 양쪽에서 나타날 p값 계산
피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.