[67일차]A/B 테스트 기본 통계 리뷰와 실습

김준석·2024년 2월 28일

A/B 테스트 분석에 사용되는 기본 통계를 학습해보자
귀무가설, 정규분포, 중심극한정리, Z-test, T-test 등등.

  • A/B 테스트는 기본적으로 귀무 가설을 사용한다.
    • 예) A와 B의 구매율은 동일하다.
  • A/B 사용자 분류 후 z-test 또는 t-test를 진행하게 되는데, 이는 정규분포에서만 사용이 가능하다.
    정규분포가 아니더라도 CLT(중심극한정리)를 사용하면 데이터 분포를 정규분포로 변환이 가능하다.
  • B-A = 0 이면 B와 A가 동일하다고 판단.
    • t-test를 사용하여 p-value 또는 Z score를 계산하여 판단.

정규분포

평균값을 중심으로 하여 좌우대칭인 종 모양을 이루는 것이다.

표준 정규 분포

표준 정규 분포란
평균 = 0,
표준편차 = 1
그래프 면적 = 1 인 분포를 말한다.

이때 각 면적은 확률이 되는데(x축 z-score)

○ 90% -> -1.645~1.645
○ 95% -> -1.96~1.96
○ 99% -> -2.575~2.575

이런식으로 볼 수 있다.

  • 양측검정 vs 단측검정
    • 보통은 단측검정을 진행 한다.
    • 양측검정 : 양쪽으로 벌어져 있는지를 확인
      예를 들어, 양측검정을 사용하여 두 집단 간의 평균 차이를 검정할 때, 우리는 두 집단의 평균이 같은지를 확인한다.
    • 단측검정 : 결과가 한쪽 방향으로만 벌어져 있는지를 확인
      예를 들어, 어떤 약의 효과를 확인할때 사용.

A와 B의 선택 기준.

결국 A/B TEST 이후에는 A와 B 둘 중 하나를 선택해서 진행해야 된다.

이때 기준이 되는 척도가 p-value와 z-score가 된다.

  • z-score의 경우
    표준 정규 분포에서 x축을 의미.
    z-score의 값을 그래프에 대입해서 확률을 확인할 수 있다.
    (보통 95%의 신뢰구간 내에 있으면 채택)
  • p-value의 경우
    • z-score를 다르게 보는 방식으로.
      z-score지점 부터 끝 점까지의 면적을 의미한다.
      즉 확률을 의미!

z-score와 p-value는 동일하게 보면 된다.

중심 극한 정리

모집단에서 샘플을 여러개 딴 다음

각 샘플들의 평균을 구하게 되면 정규분포를 따르게 된다.

  • 샘플의 수는 적어도 30개 이상을 따야 된다.

예시)

왼쪽으로 기울어진 분포를 가진 데이터를 정규분포로 만들어 보자

이때 샘플의 크기는 10, 샘플의 수를 1000개로 한 뒤
이 샘플들의 평균을 구하게 되면 아래와 같이 정규분포 모양으로 바뀐 모습을 볼 수 있다.

이 외에도 값이 비슷한 형태의 분포도 중심 극한 정리를 진행하면 정규분포의 모습을 만들 수 있다.

0개의 댓글