[통계] 가설검정과 A/B테스트

전도운·2024년 8월 13일

통계

사례 1

학원가에서 경쟁하는 두 강사 A와 B가 있다.
두 강사는 자신의 수업을 들으면 성적을 더욱 많이 올릴 수 있다고 주장하고 있다고 하지만, 이는 과장광고로 실제로는 별 차이가 없어보인다.
그런데 2024년 수학능력시험 결과 A강사한테서 수업을 들은 학생의 성적이 B강사한테서 들은 학생보다 5점 높게 나타났다.
A강사는 정말 B강사보다 실력이 있는 강사라고 할 수 있는가?
사례 2

자신의 수업을 들으면 성적을 10점 올릴 수 있다고 주장하는 강사가 있다.
누군가 이에 혹해서 그 강사의 수업을 들었고 다음번 시험성적이 5점 올랐다.
그는 화가 나서 강사에게 환불을 요구하려하는데,
성적이 5점밖에 오르지 않은 것은 강사때문일까 아니면 학생때문일까?
가설검정: 차이의 유의미함을 숫자로 보이는 통계적 기법

소비자의 입장에서는 사례 1의 경우 수강료를 조금 더 주고서라도 A강사한테서 수업을 듣고싶고, 사례 2의 경우 강사에게 환불을 요구하고 싶다.

그런데, 우리가 관찰하는 사건은 많은 사건들 중 일부이며 그 사건들은 확률적으로 발생하기 때문에 관찰한 사건이 일반적일수도 있고 예외적일 수도 있다.

가설검정은 우리가 알고 싶은 가설이 맞다고 가정했을 때 관찰한 현상이 일반적인지 예외적인지를 해당 현상이 발생할 확률로 나타낸다.
- 가설설정
  
  가설검정은 상당히 보수적인 입증 방법이다.
  일단 기존 주장이 맞다고 가정하고 이 가정과 상당히 배치되는 결과가 나와야만 다른 주장을 수용한다. 구체적으로는 아래와 같다.
  
  귀무가설( $H_0$ ): 기존의 주장, 반박하고 싶은 명제
  대립가설( $H_1$ ): 새로운 주장
  
  위 사례 1에서 귀무가설은 '두 강사의 실력에 차이가 없다' 이며
  사례 2에서 귀무가설은 강사의 수업을 들으면 성적이 10점 오른다' 이다.
- 분포에 대한 가정
  
  가설검정을 하기 위해서는 귀무가설 하에서의 분포를 전제해야 한다. 표본의 크기가 30 이상으로 충분히 크다면 중심극한정리에 따라 정규분포를 이용한다.
  
  표본의 크기가 30 미만으로 작다면 모집단의 정규성을 가정하고 자유도가 n-1인 t분포를 이용한다. (정규성을 만족하지 않는 경우는 비모수검정을 적용)
- 통계량 및 p-value 계산
  
  각 분포에 맞는 검정통계량을 계산한다. 정규분포와 t분포 모두 표본평균을 표준오차를 통해 표준화한 통계량을 이용한다.
  (표본의 크기와 모분산 정보에 따라 적용하는 분포가 다를 뿐)
  
  p-value는 귀무가설 하의 분포에서 관측치를 통해 계산한 통계량보다 더욱 극단적인 값이 나올 누적 확률을 의미한다.
  
  만약 p-value가 0.01이라면 귀무가설 하에서 현재 관측한 값보다 극단적인 값이 나올 확률이 1%에 불과할 정도로 관측치가 이례적이다는 의미이다.
  
  반면, p-value가 0.1이라면 관측치보다 극단적인 값이 나올 확률이 10%정도로 귀무가설 하에서 이러한 관측값은 그럭저럭 나올 만한 일반적인 상황이라는 의미이다.
  
  여기서 내가 알고자 하는 것이 대립가설에 방향성이 없다면(양측검정) 귀무가설 하 계산된 p-value에 2를 곱해서 적용한다.
  (따라서 양측검정을 하는 경우 귀무가설을 기각하기 어려워진다)
- 유의수준에 따른 가설검정
  
  이제 계산은 모두 끝났고 판단의 절차가 남는다. 귀무가설 하에서 지금 관측한 값이 나올 확률이 극히 낮긴 한데, 사실 발생하지 말라는 법은 없는 것이다.
  
  사례 1에서 두 강사의 실력이 정말 비슷한데 하필 2024년 수능 강의를 들은 학생의 실력이 달랐을 수도 있는 것이고
  
  사례 2에서 강의를 들을 학생이 공부를 제대로 하지 않았을 수도 있는 것이다.
  
  그럼에도 불구하고 우리는 귀무가설과 대립가설 중 하나의 선택을 해야하므로, 선택의 불확실성을 남겨놓은 채 의사결정을 하게 된다.
  
  p-value는 이러한 통계적 의사결정의 불확실성을 의미하며, 달리 말하면 귀무가설이 참인데 이를 기각할 가능성(제1종 오류)이다.
  
  불확실성을 측정하고 이러한 측정된 불확실성을 고려하여 합리적인 의사결정을 하는 데 통계학의 묘미가 있다고 할 수 있겠다.
독립표본과 대응표본

차이를 비교하고자 하는 집단은 크게 독립표본과 대응표본으로 구분된다.
독립표본은 서로 무관한 다른 집단에 다른 처리를 한 표본을 의미하며
대응표본은 동일한 집단에 동일한 처리를 한 표본을 의미한다.

두 경우 모두 두개 이상의 표본이 확보되나,
이를 통해 확인할 수 있는 내용은 매우 다르다.

독립표본은 두 처리 방법의 효과가 차이가 있는지를 볼 수 있는 반면
대응표본은 처리 전과 후에 차이가 있는지를 볼 수 있다.

위 사례에서 사례 1은 독립표본의 경우이며, 사례 2는 대응표본의 경우이다.
A/B테스트(두 집단의 평균 차이에 대한 가설검정)
- A/B테스트의 의미
  - A/B 검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법.
  - 마케팅, 웹사이트 디자인 등에서 많이 사용됨.
  - 사용자들을 두 그룹으로 나누고, 각 그룹에 다른 버전을 제공한 후, 반응을 비교.
  위 내용을 볼 때, A/B테스트는 독립표본의 평균 차이에 대한 가설검정과 동일한 것으로 판단된다.
- 가설설정
  
  귀무가설( $H_0$ ): 두 집단의 평균에 차이가 없다.
  대립가설( $H_1$ ): 두 집단의 평균에 차이가 있다. (양측검정)
  대립가설( $H_1$ ): A집단의 평균이 B집단 평균보다 크다. (단측검정)
- 검정통계량과 분포
  
  검정통계량은 두 표본평균의 차이를 표본평균 차이의 표준오차로 나눈 값이며
  표본의 크기가 충분히 크다면( $n_1$ , $n_2$ >= 30) 표준정규분포를 따른다.
  
  표본의 모집단이 정규분포를 따르나 모분산을 모르는 경우에는 검정통계량은 자유도가 ( $n_1$ + $n_2$ -2)인 t분포를 따른다.
대응표본 검정

대응표본은 사실상 표본집단이 하나이다. 따라서 이를 차이가 측정된 단일집단에 대한 검정으로 간주하여도 무방하다.
- 가설설정
  
  귀무가설( $H_0$ ): 처리의 효과가 없다(0).
  대립가설( $H_1$ ): 처리의 효과가 차이가 있다. (양측검정)
  대립가설( $H_1$ ): 처리가 양/음의 효과가 있다. (단측검정)
- 검정통계량과 분포
  
  검정통계량은 차이를 표준오차로 나눈 값이며 단일표본에 대한 Z검정 또는 t검정도 동일하다.

전도운

의미 있는 한걸음을 추구합니다.

이전 포스트

[아티클] 머신러닝의 등장과 데이터 분석의 도전과제

다음 포스트

[통계] 가설검정과 A/B테스트

[아티클] 머신러닝의 등장과 데이터 분석의 도전과제

[통계] 선형회귀 - (1) 기본가정

0개의 댓글

관련 채용 정보