통계 10: 가설검정의 기본

ヒヒヒ·2025년 9월 29일

통계

목록 보기
10/13
post-thumbnail

🧐 들어가며

  • 가설 1: 동전을 16번 던지면 그 중 10번은 앞면이 나온다.
    • n = 16, 평균 = 8, 표준편차 ≈ 2일때,
    • 95% 예언구간: 8 ± (1.96 × 2) = 4.08 ~ 11.92
    • 구간 내에 10이 포함됨 → 기각 불가
  • 가설 2: 동전을 36번 던지면 그 중 10번은 앞면이 나온다.
    • n = 36, 평균 = 18, 표준편차 ≈ 3일때,
    • 95% 예언구간: 18 ± (1.96 × 3) = 12.12 ~ 23.88
    • 구간 내에 10이 포함되지 않음 → 기각

💡 가설검정의 사고방식
"가능한 가설은 채택하고, 불가능한 가설은 기각한다."

  • 기각: "강하게 말할 수 있음" → 해당 가설을 설명하기 어려움
  • 채택: "강하게 말할 수 없음" → 기각할 증거가 아직 없음

📌 가설검정

정의

  • 표본에서 얻은 결과가 단순한 우연인지, 아니면 실제 효과 때문인지를 판별하는 통계적 방법

    💡 현실 데이터에는 항상 우연(5%)이 섞여있기에 판별하는 것이 중요

예시

  • 상황: 광고를 봤기 때문에 평균 구매액이 높을까?
    • A집단(광고 봄): 평균 구매액 = 52,000원
    • B집단(광고 안봄): 평균 구매액 = 50,000원
    • 차이: 2,000원
  • 질문: 두 집단의 차이는 정말 광고의 효과일까, 단순한 우연일까?

분석방식

  • EDA(탐색적 데이터 분석): 데이터에서 패턴을 보고 가설 세우기
  • 가설검정(확증적 분석): 가설을 세운 후 데이터를 보며 검증해나가기

📌 귀무가설과 대립가설

정의

  • 귀무가설(H₀): “차이가 없다 / 효과가 없다”(나의 가설을 부정하는 가설)
  • 대립가설(H₁):: “차이가 있다 / 효과가 있다”(나의 가설)

💡 예시

  • 나의 가설: 신약 개발은 당뇨병 치료에 효과가 있을것이다.
    • 대립가설(H₁): 내 가설 그대로 (신약이 효과가 있을것이다.)
    • 귀무가설(H₀): 내 가설을 부정 (신약은 효과가 없을것이다.)

예시

  • 상황1

    • "신약이 혈압에 효과가 있다"를 검증하고자 함
      • A집단: 신약 투여 → 평균 µA
      • B집단: 가짜약 투여 → 평균 µB
    • 가설:
      • H₀: 신약의 효과가 없음 → 평균 µA = 평균 µB(둘의 성능이 똑같으면 효과가 없음)
      • H₁: 신약의 효과가 있음 → 평균 µA != 평균 µB(둘의 성능이 다르므로 효과가 있을 수도 있음)
  • 상황2

    • 새로운 버튼과 기존 버튼의 클릭률 확인
      • H₀ = 클릭률의 차이가 없음, H₁ = 클릭률의 차이가 있음
      • 클릭률 차이가 크면 H₀ 기각
  • 상황3

    • 새 상품이 기존 상품보다 불량률이 적은지 확인
      • H₀ = 새 상품과 기존 상품의 불량률이 같음, H₁ = 불량률이 다름
      • 불량률 차이가 크면 H₀ 기각

📌 귀무가설 특징

특징

  • 귀무 가설은 비교하려는 두 집단의 표본평균이 같으면 성립(µA = µB)
    • 예: 신약을 먹기 전과 후의 평균 차이가 없다면, 약의 효과가 없다고 보는 것
  • 즉, 표본평균의 차이 (µA - µB)는 0에 가깝다고 가정
    • 다만 현실에서는 귀무가설이 성립하더라도 두 집단 간에 아주 작은 차이는 관찰될 수 있음
    • 이러한 작은 차이는 흔히 발생하지만, 큰 차이는 드물게 발생하므로, 차이가 클수록 귀무가설이 기각될 가능성이 높아짐

왜 귀무가설부터 확인할까?(귀류법)
"참"을 증명하는 것 보다 "부정"을 증명하는 것이 쉽기때문

  • 우선 나의 가설(대립가설)이 틀리고 효과 없음(귀무가설)이 맞다라고 가정
  • 그 세계(귀무가설이 맞다)에서 관찰된 데이터가 너무 드물게(5% 영역에 속하면) 일어나면H₀ 기각
  • 따라서 H₀이 기각될수록 H₁이 설득력을 얻게 됨
  • 단, H₁이 100% 맞다고 보장할 수는 없음 (귀무가설이 틀릴 뿐, 대립가설이 맞는게 아니기에)

    💡 통계는 부정(기각)에는 강하지만, 긍정(채택)에는 약함


📌 P-value와 유의수준

P-value

정의

  • 귀무가설(H₀)이 참이라는 전제 하에, 실제 데이터에서 극단적인 결과(5%)가 나올 확률

유의수준(a)

정의

  • 분석자(나)가 분석 전에 정해두는 기각 여부를 판단하는 기준
    • 보통 0.05 (5%) 사용

규칙

  • p < a(0.05) → H₀ 기각
    • 귀무가설이 참이라는 전제 하에, 나오기 드문 유의미한 차이
  • p ≥ a(0.05) → H₀ 기각 불가(보류)
    • 귀무가설이 참이라는 전제 하에, 흔한일(그렇다고 H₀을 증명한 것은 아님)

0개의 댓글