[통계] 검정력, 효과크기와 표본크기

hyun·2022년 8월 22일
0

통계

목록 보기
29/37

🖤 검정력

검정력(檢定力, statistical power)는 대립가설이 사실일 때, 이를 사실로서 결정할 확률이다.
-위키백과

2종 오류가 "대립가설이 사실일 때, 이를 기각할 확률"이므로 12종오류확률1-2종오류\,확률이 된다.

🚨 영향을 미치는 요인

  • 유의수준 (1종 오류) : 유의수준이 커질수록 (예. 5%에서 10%로), 즉 신뢰도가 나빠질수록 검정력은 좋아진다.
  • 표준편차 : 표준편차가 커지면 검정력은 나빠진다.
  • 두 모집단 간의 차이 : 이 차이가 작을수록 검정력은 나빠진다.
  • 표본크기 : 표본의 크기가 클수록 검정력은 증가한다.

그냥 간단하게 생각해서 통계적으로 유의하다는 결론을 내기 위해서 충분해야 하는 수치.

자료를 모으기 전후 모두 검정력 분석을 시행할 수 있는데, 실험 전에 시행하면 적절한 표본크기를 정할 수 있게 된다.

😅 효과크기

  • 귀무가설 유의성 검정의 단점은 표본이 충분히 크면 모든 크기의 효과는 결국 통계학적 유의성을 보인다는 점.

  • 따라서 검정 시 효과크기도 같이 보여야 한다.

  • 효과크기란 연구하고 있는 현상이 실제로 모집단에 존재하는 정도를 나타내는 수치

  • 공식은 (두 표본 집단의 평균 차이)/(두 집단의 평균차이로 추정된 표준편차)

  • 0.2 이하면 작은 효과크기, 0.5면 중간 크기, 0.8 이상이면 큰 효과라고 한다.

  • 이 효과크기가 표본크기를 좌우하게 된다.

👨‍🏫 실제 검정에서 평균이 차이있다는 것이 중요한 게 아니라,
그게 얼만큼 맥락있게 차이나는지가 중요.

🦎 표본크기

  • 50%처럼 큰 성능 개선에 대해 관심이 있다면 적은 표본크기로도 가능하다.
  • 하지만 1.xx%처럼 작은 성능 개선에 관심이 있다면, 그만큼 표본크기도 커져야 한다.
  • 이 표본크기를 검정력과 효과크기를 이용해서 계산할 수 있다.
  • 다음 요소들이 식을 이룬다 :
    1) 표본크기
    2) 탐지하고자 하는 효과크기
    3) 가설검정을 위한 유의수준
    4) 검정력

따라서 4가지 중 3개만 알아도 한 가지를 구할 수 있다.

📚 실습

실습은 [데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 파이썬과 R로 살펴보는 50가지 핵심 개념] 을 참고했다.

배너 클릭률이 1.1%라고 하고, 10% 증가한 1.21%를 원한다고 가정하자.
이만큼의 효과를 알아내기 위해서 필요한 표본크기는 ?

# 파이썬, r에서 단방향 검정 시 대립가설은 '더 크다'
import statsmodels.api as sm
effect_size = sm.stats.proportion_effectsize(0.0121, 0.011)
analysis = sm.stats.TTestIndPower()
# power = 검정력
result = analysis.solve_power(effect_size=effect_size, alpha=0.05, power=0.8, alternative='larger')
print('Sample size : {}'.format(result))


약 10만의 표본크기는 있어야 한다.

0개의 댓글