귀무가설 대립가설

김하경·2025년 9월 22일

통계

목록 보기
6/13

귀무가설/대립가설-가설검정(일반검증/유의성 검정)

일반 검증(전통 가설검정) = “효과가 있냐 없냐” 확인 (H₀: 없음, H₁: 있음)

"귀무가설이 기각이 되면 대립가설이 맞다"가 아니라

귀무가설이 맞지 않을 가능성이 더 커져서 대립가설이 상대적으로 더 타당해보이는 것이다

예시
“법정에서 피고인(H₀)을 무죄로 가정하고 재판을 했는데, 증거가 너무 이상해서 무죄(H₀)를 유지하기 어렵다 → 그래서 무죄를 기각한다.
하지만 그렇다고 해서 자동으로 유죄(H₁)라고 확정하는 건 아니다. 다만 유죄일 가능성이 더 커 보일 뿐이다.”

표준편차(σ): 데이터 자체의 흩어짐
표준오차(SE): 표본평균의 불확실성 (σ / √n)

p가 작다 ≠ 효과가 크다
p가 크다 ≠ 효과가 없다 (표본이 작거나 변동이 크면 그럴 수 있음)

“효과가 얼마나 큰가”는 효과크기(d, r, OR 등)와 신뢰구간 폭으로 판단!즉 귀무가설에서 두 집단의 평균이 같다라고 주장하는 거고 즉 효과거 없다라고 주장하는거고 대립가설은 두집단이 평균이라 다르면 즉 효과가 있다인건가?

p값은 H₀(효과=0)가 ‘맞다’고 가정했을 때, 지금처럼(또는 더 극단적인) 데이터가 나올 확률

CI와 p값 정리

비교하는 건 보통 두 집단 평균의 차이(μA − μB) 혹은 효과 크기
귀무가설 H0은 차이가 없다이므로 → μA − μB = 0이 기본 가정이 됨
그래서 0이 신뢰구간에 들어있다 = 차이가 0일 수도 있다(= 효과 없을 수도 있다)
반대로 0이 구간 밖 = 차이가 0일 가능성은 희박하다 → 효과가 있다.
=> 95% 신뢰구간에서 0이 안 들어가면 → 유의수준 α=0.05에서 “유의하다”고 결론.
즉, 차이가 0일 가능성은 희박하다.
유의하다 = 효과가 우연일 확률이 작다” ⭕
“통계적으로 유의하다”는 = ‘우연일 가능성은 거의 없다고 보고, 효과가 있다고 판단한다

=> 즉 두 평균이 같으면 효과가 없다라는 걸로 가정 즉 귀무가설이 맞다고 가정하였을 때 효과가 없다라는 말은 즉 차이가 없다라는 말과 같다.
그러면 이 0이(효과가 없다) 95%신뢰구간에 있다면 신뢰할수 있다라는 말이 되니까 차이가 없을 수 있다 즉 효과가 없을 수 있다라는 근거가 되는거고, 만약 신뢰구간 밖이라면 효과가 있을 수 있다. 즉 차이가 있을 수 있다라는 말에 근거가 된다.

동등성 검증 = “차이가 없다고 말할 수 있냐” 확인 (H₀: 차이 큼, H₁: 차이 작음)

목적이 동등성인거지! 그러니까 귀무가설은 오히려 차이가 없다라고 말해야하는 거지!

핵심은 “목표(검증하고 싶은 것)”에 따라
같은 “가설검정”이라는 틀 안에서
귀무가설(H₀)과 대립가설(H₁)의 설정 방식이 달라지고
그래서 검정 이름도 달라지는 거!

Q.근대 왜 동등하다가 목적으로 하는 거지? 이해가 안되네 ㅠㅠㅠ 차이가 있어야지 신약을 팔수 있는 거 아닌가?

  1. 신약 개발(innovation 신약) → 일반 검정
    목표: 기존 약보다 더 낫다(효과가 있다)를 증명해야 함
    그래서:
    H₀: 차이 없음
    H₁: 차이 있음
    p-value로 H₀를 기각해야 신약 승인이 가능

👉 예: 항암제 신약 → 기존 치료보다 생존율 ↑ 보여야 승인

  1. 복제약(제네릭, biosimilar) → 동등성 검정

목표: “오리지널과 효과 차이가 없다”를 증명해야 함
왜냐하면 제네릭은 이미 특허 끝난 약과 동일한 성분으로 만듦
환자·의사 입장에서 중요한 건 “효과가 같은데 가격은 더 싸다”라는 점

귀무가설: |μ₁-μ₂| ≥ δ (차이가 있다)
대립가설: |μ₁-μ₂| < δ (차이가 없다)
δ = 실질적으로 의미 있는 최소 차이
H₀: "의미 있는 차이가 있다" (|차이| ≥ δ)
H₁: "의미 있는 차이가 없다" (|차이| < δ)

신뢰구간이 δ 안에 들어오면 → “동등하다” 인정

👉 예: 오리지널 혈압약 vs 제네릭 혈압약 → ±5mmHg 차이 이내면 동등성 인정

Q. 동등성 검정을 불량품 검사랑 비슷한건가?

A. 맞음!!! 동등성 검정은 “효과가 오리지널과 크게 다르지 않은지, δ라는 기준선으로 불량품을 걸러내는 과정

다음 질문이요~~!

Q. 모집단을 모르는데 어떻게 검증을 할 수 있는 거지?

A.모집단의 표준편차 σ를 아는 경우는 현실적으로 드물다. 그래서 실제 통계 분석에서는 거의 항상 t-검정을 쓴다.”

  1. 우리가 아는 것 vs 모르는 것

모집단 평균 μ, 모집단 분산 σ² → 알 수 없음 (진짜는 감춰져 있음)

표본 평균 X̄, 표본 분산 s² → 우리가 관측할 수 있는 것

👉 그래서 검정은 항상 “모집단의 가설”을 세워 놓고,
“내 표본이 그 가설과 얼마나 잘 맞는가?”를 보는 절차

자유도(df)와 표본 크기

  1. 단일 표본 t-검정일 때 df = n − 1
    즉, df=30이면 n=31개의 표본이 있다는 뜻
    표본이 30개 정도만 되어도 t-분포는 정규분포와 거의 차이가 없어짐

  2. 왜 정규분포처럼 보이나?

표본 크기가 커질수록 표본 표준편차
𝑠가 모집단 표준편차 σ와 비슷해짐
즉, 불확실성이 줄어들어서 t-분포의 꼬리(두꺼움)가 점점 얇아짐

결국 정규분포와 거의 겹쳐 보이게 됨

  1. 실무/강의에서 자주 쓰는 표현

“표본 수가 적을 때는 t-분포를 써야 하고, 표본 수가 많아지면 t-분포가 정규분포와 거의 같다.”
“경험적으로 n ≥ 30 정도면 정규분포 근사로 써도 무방하다.”

✅ 따라서,
*“df=30일 경우는 표본 크기가 충분히 커졌다고 볼 수 있고, 그래서 t-분포가 정규분포처럼 보인다”
꼬리가 두꺼운 이유 = σ를 모를 때 s로 추정하기 때문에 추가적인 불확실성이 반영됨
그 결과, 평균이 멀리 벗어난 값이 더 자주 나올 수 있다고 인정 → 꼬리가 두꺼워짐
표본 크기 ↑ → s ≈ σ → 불확실성 ↓ → 정규분포처럼 꼬리 얇아짐

큰수의 법칙과 t-분포의 꼬리가 두꺼운 이유

표본 크기가 작음 → 표본평균의 들쭉날쭉 흔들림이 큼)-> 주사위 평균 3.5 그래프 생각
같은 모집단에서 뽑아도 표본평균이 크게 벗어날 수 있음
된장국 비유
큰 국자로 떠먹으면 → 국물 맛이 평균과 거의 같음 (표본 크기 ↑ → SE ↓)
작은 국자로 떠먹으면 → 짠 부분, 싱거운 부분이 나올 수 있음 (표본 크기 ↓ → SE ↑)
그래서 표본 평균이 “평균에서 크게 벗어난 값(극단값)“이 더 자주 나타남
heavy tail 연결
극단값이 더 자주 나오니까, 분포가 정규분포보다 꼬리가 두꺼운 모양이 됨
= t-분포

1종오류와 2종오류

p값-> 가설검정에 쓰이는 지표이고
p-value: 귀무가설이 참일 때, 극단값이 나올 확률 우연히 이 결과가 나올 확률
정의: “H₀가 맞다고 가정했을 때, 즉 귀무가설이 맞다고 가정했을 때 지금처럼(또는 더 극단적인) 결과가 나올 확률”.p-value는 극단적인 데이터가 나올 ‘확률’이고, 유의수준은 그걸 판정하기 위한 ‘기준선’이다.
즉 p값이 0.05보다 크다 아니다로 효과가 있다 없다로 나뉨
표본이 작으면 표준오차(SE)가 커지고 신뢰구간이 넓어짐. 노이즈랑 불확실성이 커지기 때문에, 효과가 있음에도 불구하고 p>0.05로 나와버려서 → 우연 때문인 것처럼 보일 수 있다.”
이건 실제로는 효과가 있는데 (즉, H₁가 맞는데) 우리가 H₀를 기각하지 못한 상황 → 2종 오류에 해당
예시 무죄가 아닌데 무죄인것처럼 보여가지고 유죄다라는 판결을 못내리는 것
(표본이 작으면 효과가 있음에도 불구하고(상대적으로 효과가 작아보여), 불확실성이 커서 우연처럼(p>0.05) 보일 수 있다)
반대로 표본크기가 크면 표준 오차(SE)가 작아지고 신뢰구간이 좁고 그래프 모양이 뾰족해짐 노이즈랑 불활실성이 작아지기때문에, 효과가 없는데도 불구하고 p<0.05 로 나와버려 효과가 있는 것처럼 보일 수있음 즉 가설이 맞는데 아닌 것처럼 보이는 거-> 1종오류
예시 무죄가 맞는데 유죄인것럼 보여 유죄로 판정 하는 오류 1종오류

Q. 1종오류와 2종 오류를 안 범할 수 없는 건가??

A. 불가능

표본 수 증가와 오류

표본 수를 늘리면 검정력이 커져서(=차이를 잡아낼 힘) 2종 오류(실제로 효과가 있는데도 없다고 판단)가 줄어든다.

하지만 표본이 너무 커지면 아주 미세한 차이도 통계적으로 유의하게 잡혀서 “실제로는 큰 의미가 없는 차이”를 효과 있다고 착각할 수도 있다.
여러 번의 실험
같은 가설을 여러 번 반복 실험하면 우연에 의한 오류(특히 2종 오류)는 점점 줄어든다.
즉, 반복 검증을 통해 신뢰도가 높아진다.

실제 데이터 분석 관점

현실의 시장조사나 사회 데이터 분석에서는 엄밀한 검증보다는 경향성 파악에 의미를 두는 경우가 많다.
이 과정에서 통계적으로 “유의수준 5%”라는 기준(즉, 1종 오류 가능성 5%)은 여전히 존재한다.
따라서 여러 번 실험하거나 데이터를 모아 분석한다고 해도, 우연히 잘못된 결론을 내릴 가능성은 항상 열려 있다.

0개의 댓글