A/B 테스트(p-value및 test 정리) & 최종 프로젝트 Day3

hyun-jin·2025년 6월 4일

데이터 분석

목록 보기
76/100
post-thumbnail

데이터 분석 72일

p-value란?

  • p-value(유의확률)는 "귀무가설(null hypothesis)이 맞다고 가정했을 때, 지금처럼 극단적인 결과가 나올 확률"을 의미.

    ex) 남녀 평균 급여가 같다는 가설(귀무가설) 하에, 표본에서 150유로 차이가 났다면, p-value는 이런 차이가 우연히 나타날 확률을 계산한 값이다.

  • p-value가 작을수록(보통 0.05 미만) 귀무가설을 기각하고, 대립가설(차이가 있다)을 채택하는 근거가 됨.

t-test란?

  • t-test(티검정)는 "두 집단의 평균이 통계적으로 유의미하게 다른지"를 검정하는 통계적 방법.
  • 주로 표본 수가 적거나(30개 미만), 모집단의 분산을 모를 때 사용.
  • t-test는 평균의 차이가 우연인지, 실제로 의미 있는 차이인지를 판단하는 데 쓰임.

t-test의 종류

  • 단일표본 t-test: 한 집단의 평균이 기준값과 다른지 검정
  • 독립표본 t-test: 서로 다른 두 집단의 평균 비교
  • 대응표본 t-test: 같은 집단의 전후 변화 등 두 조건 비교

주요 통계 검정 요약 표

테스트명사용 조건목적/설명
2-Sample t-test두 그룹 평균 비교, 정규성 가정두 집단 평균 차이 검정
Mann-Whitney U Test비정규분포, 순위 기반두 집단 중앙값(중앙 순위) 비교
Welch’s t-test두 그룹 분산 다를 때분산 다를 때 평균 차이 검정
Chi-Square Test범주형 데이터(예: 성공/실패)범주별 비율 차이 검정
Bayesian Testing확률 기반 해석 원할 때사전확률, 사후확률로 직접적 결과 제공
ANOVA세 개 이상 그룹 평균 비교여러 집단 평균 차이 검정

최종 프로젝트 Day3

  • 사용할 컬럼들 다 연결해서 뽑아 봤는데 다 null 값으로 나옴...
  • 결국 itemsummary에 있는 컬럼들만 뽑아서 쓰는거로 했는데 그 안에도 충분히 많은 데이터가 있어 분석이 가능할 것 같다.
  • 근데 itemsummary에 있는 컬럼들 중에서도 null 값만 나오는 컬럼도 있고 결측치가 대부분인 컬럼도 있어 다시 한번 걸렀다.
  • 데이터를 뽑는 기준도 생각을 해야 했다.
  • 카테고리에 만개가 넘는다... 이걸 어떻게 다 뽑나 고민을 하다가 대분류가 있어서 34개 카테고리로 해서 뽑기로 결정했다.
  • 근데 eBay에 토큰이 하루에 만개 밖에 못 뽑는다... 더 주지 않아...
  • 한 컬럼당 만개면 6명이 6일을 뽑아야 해... 그래서 아이디를 하나씩 더 만든다~!

0개의 댓글