통계 10: 가설검정의 기본

ヒヒヒ·2025년 9월 29일

목록 보기

10/13

🧐 들어가며

가설 1: 동전을 16번 던지면 그 중 10번은 앞면이 나온다.
- n = 16, 평균 = 8, 표준편차 ≈ 2일때,
- 95% 예언구간: 8 ± (1.96 × 2) = 4.08 ~ 11.92
- 구간 내에 10이 포함됨 → 기각 불가

가설 2: 동전을 36번 던지면 그 중 10번은 앞면이 나온다.
- n = 36, 평균 = 18, 표준편차 ≈ 3일때,
- 95% 예언구간: 18 ± (1.96 × 3) = 12.12 ~ 23.88
- 구간 내에 10이 포함되지 않음 → 기각

💡 가설검정의 사고방식
"가능한 가설은 채택하고, 불가능한 가설은 기각한다."

기각: "강하게 말할 수 있음" → 해당 가설을 설명하기 어려움

채택: "강하게 말할 수 없음" → 기각할 증거가 아직 없음

정의

표본에서 얻은 결과가 단순한 우연인지, 아니면 실제 효과 때문인지를 판별하는 통계적 방법

💡 현실 데이터에는 항상 우연(5%)이 섞여있기에 판별하는 것이 중요

예시

상황: 광고를 봤기 때문에 평균 구매액이 높을까?
- A집단(광고 봄): 평균 구매액 = 52,000원
- B집단(광고 안봄): 평균 구매액 = 50,000원
- 차이: 2,000원
질문: 두 집단의 차이는 정말 광고의 효과일까, 단순한 우연일까?

분석방식

정의

💡 예시

나의 가설: 신약 개발은 당뇨병 치료에 효과가 있을것이다.

대립가설(H₁): 내 가설 그대로 (신약이 효과가 있을것이다.)

귀무가설(H₀): 내 가설을 부정 (신약은 효과가 없을것이다.)

예시

상황1
- "신약이 혈압에 효과가 있다"를 검증하고자 함
  - A집단: 신약 투여 → 평균 µA
  - B집단: 가짜약 투여 → 평균 µB
- 가설:
  - H₀: 신약의 효과가 없음 → 평균 µA = 평균 µB(둘의 성능이 똑같으면 효과가 없음)
  - H₁: 신약의 효과가 있음 → 평균 µA != 평균 µB(둘의 성능이 다르므로 효과가 있을 수도 있음)
상황2
- 새로운 버튼과 기존 버튼의 클릭률 확인
  - H₀ = 클릭률의 차이가 없음, H₁ = 클릭률의 차이가 있음
  - 클릭률 차이가 크면 H₀ 기각
상황3
- 새 상품이 기존 상품보다 불량률이 적은지 확인
  - H₀ = 새 상품과 기존 상품의 불량률이 같음, H₁ = 불량률이 다름
  - 불량률 차이가 크면 H₀ 기각

특징

귀무 가설은 비교하려는 두 집단의 표본평균이 같으면 성립(µA = µB)
- 예: 신약을 먹기 전과 후의 평균 차이가 없다면, 약의 효과가 없다고 보는 것
즉, 표본평균의 차이 (µA - µB)는 0에 가깝다고 가정함
- 다만 현실에서는 귀무가설이 성립하더라도 두 집단 간에 아주 작은 차이는 관찰될 수 있음
- 이러한 작은 차이는 흔히 발생하지만, 큰 차이는 드물게 발생하므로, 차이가 클수록 귀무가설이 기각될 가능성이 높아짐

왜 귀무가설부터 확인할까?(귀류법)
"참"을 증명하는 것 보다 "부정"을 증명하는 것이 쉽기때문

우선 나의 가설(대립가설)이 틀리고 효과 없음(귀무가설)이 맞다라고 가정
그 세계(귀무가설이 맞다)에서 관찰된 데이터가 너무 드물게(5% 영역에 속하면) 일어나면 → H₀ 기각
따라서 H₀이 기각될수록 H₁이 설득력을 얻게 됨
단, H₁이 100% 맞다고 보장할 수는 없음 (귀무가설이 틀릴 뿐, 대립가설이 맞는게 아니기에)

💡 통계는 부정(기각)에는 강하지만, 긍정(채택)에는 약함