"귀무가설이 기각이 되면 대립가설이 맞다"가 아니라
예시
“법정에서 피고인(H₀)을 무죄로 가정하고 재판을 했는데, 증거가 너무 이상해서 무죄(H₀)를 유지하기 어렵다 → 그래서 무죄를 기각한다.
하지만 그렇다고 해서 자동으로 유죄(H₁)라고 확정하는 건 아니다. 다만 유죄일 가능성이 더 커 보일 뿐이다.”
표준편차(σ): 데이터 자체의 흩어짐
표준오차(SE): 표본평균의 불확실성 (σ / √n)
p가 작다 ≠ 효과가 크다
p가 크다 ≠ 효과가 없다 (표본이 작거나 변동이 크면 그럴 수 있음)
“효과가 얼마나 큰가”는 효과크기(d, r, OR 등)와 신뢰구간 폭으로 판단!즉 귀무가설에서 두 집단의 평균이 같다라고 주장하는 거고 즉 효과거 없다라고 주장하는거고 대립가설은 두집단이 평균이라 다르면 즉 효과가 있다인건가?
p값은 H₀(효과=0)가 ‘맞다’고 가정했을 때, 지금처럼(또는 더 극단적인) 데이터가 나올 확률
비교하는 건 보통 두 집단 평균의 차이(μA − μB) 혹은 효과 크기
귀무가설 H0은 차이가 없다이므로 → μA − μB = 0이 기본 가정이 됨
그래서 0이 신뢰구간에 들어있다 = 차이가 0일 수도 있다(= 효과 없을 수도 있다)
반대로 0이 구간 밖 = 차이가 0일 가능성은 희박하다 → 효과가 있다.
=> 95% 신뢰구간에서 0이 안 들어가면 → 유의수준 α=0.05에서 “유의하다”고 결론.
즉, 차이가 0일 가능성은 희박하다.
유의하다 = 효과가 우연일 확률이 작다” ⭕
“통계적으로 유의하다”는 = ‘우연일 가능성은 거의 없다고 보고, 효과가 있다고 판단한다
=> 즉 두 평균이 같으면 효과가 없다라는 걸로 가정 즉 귀무가설이 맞다고 가정하였을 때 효과가 없다라는 말은 즉 차이가 없다라는 말과 같다.
그러면 이 0이(효과가 없다) 95%신뢰구간에 있다면 신뢰할수 있다라는 말이 되니까 차이가 없을 수 있다 즉 효과가 없을 수 있다라는 근거가 되는거고, 만약 신뢰구간 밖이라면 효과가 있을 수 있다. 즉 차이가 있을 수 있다라는 말에 근거가 된다.
목적이 동등성인거지! 그러니까 귀무가설은 오히려 차이가 없다라고 말해야하는 거지!
핵심은 “목표(검증하고 싶은 것)”에 따라
같은 “가설검정”이라는 틀 안에서
귀무가설(H₀)과 대립가설(H₁)의 설정 방식이 달라지고
그래서 검정 이름도 달라지는 거!
👉 예: 항암제 신약 → 기존 치료보다 생존율 ↑ 보여야 승인
목표: “오리지널과 효과 차이가 없다”를 증명해야 함
왜냐하면 제네릭은 이미 특허 끝난 약과 동일한 성분으로 만듦
환자·의사 입장에서 중요한 건 “효과가 같은데 가격은 더 싸다”라는 점
귀무가설: |μ₁-μ₂| ≥ δ (차이가 있다)
대립가설: |μ₁-μ₂| < δ (차이가 없다)
δ = 실질적으로 의미 있는 최소 차이
H₀: "의미 있는 차이가 있다" (|차이| ≥ δ)
H₁: "의미 있는 차이가 없다" (|차이| < δ)
신뢰구간이 δ 안에 들어오면 → “동등하다” 인정
👉 예: 오리지널 혈압약 vs 제네릭 혈압약 → ±5mmHg 차이 이내면 동등성 인정
Q. 동등성 검정을 불량품 검사랑 비슷한건가?
A. 맞음!!! 동등성 검정은 “효과가 오리지널과 크게 다르지 않은지, δ라는 기준선으로 불량품을 걸러내는 과정
다음 질문이요~~!
Q. 모집단을 모르는데 어떻게 검증을 할 수 있는 거지?
A.모집단의 표준편차 σ를 아는 경우는 현실적으로 드물다. 그래서 실제 통계 분석에서는 거의 항상 t-검정을 쓴다.”
모집단 평균 μ, 모집단 분산 σ² → 알 수 없음 (진짜는 감춰져 있음)
표본 평균 X̄, 표본 분산 s² → 우리가 관측할 수 있는 것
👉 그래서 검정은 항상 “모집단의 가설”을 세워 놓고,
“내 표본이 그 가설과 얼마나 잘 맞는가?”를 보는 절차
단일 표본 t-검정일 때 df = n − 1
즉, df=30이면 n=31개의 표본이 있다는 뜻
표본이 30개 정도만 되어도 t-분포는 정규분포와 거의 차이가 없어짐
왜 정규분포처럼 보이나?
표본 크기가 커질수록 표본 표준편차
𝑠가 모집단 표준편차 σ와 비슷해짐
즉, 불확실성이 줄어들어서 t-분포의 꼬리(두꺼움)가 점점 얇아짐
결국 정규분포와 거의 겹쳐 보이게 됨
“표본 수가 적을 때는 t-분포를 써야 하고, 표본 수가 많아지면 t-분포가 정규분포와 거의 같다.”
“경험적으로 n ≥ 30 정도면 정규분포 근사로 써도 무방하다.”
✅ 따라서,
*“df=30일 경우는 표본 크기가 충분히 커졌다고 볼 수 있고, 그래서 t-분포가 정규분포처럼 보인다”
꼬리가 두꺼운 이유 = σ를 모를 때 s로 추정하기 때문에 추가적인 불확실성이 반영됨
그 결과, 평균이 멀리 벗어난 값이 더 자주 나올 수 있다고 인정 → 꼬리가 두꺼워짐
표본 크기 ↑ → s ≈ σ → 불확실성 ↓ → 정규분포처럼 꼬리 얇아짐
표본 크기가 작음 → 표본평균의 들쭉날쭉 흔들림이 큼)-> 주사위 평균 3.5 그래프 생각
같은 모집단에서 뽑아도 표본평균이 크게 벗어날 수 있음
된장국 비유
큰 국자로 떠먹으면 → 국물 맛이 평균과 거의 같음 (표본 크기 ↑ → SE ↓)
작은 국자로 떠먹으면 → 짠 부분, 싱거운 부분이 나올 수 있음 (표본 크기 ↓ → SE ↑)
그래서 표본 평균이 “평균에서 크게 벗어난 값(극단값)“이 더 자주 나타남
heavy tail 연결
극단값이 더 자주 나오니까, 분포가 정규분포보다 꼬리가 두꺼운 모양이 됨
= t-분포
p값-> 가설검정에 쓰이는 지표이고
p-value: 귀무가설이 참일 때, 극단값이 나올 확률 우연히 이 결과가 나올 확률
정의: “H₀가 맞다고 가정했을 때, 즉 귀무가설이 맞다고 가정했을 때 지금처럼(또는 더 극단적인) 결과가 나올 확률”.p-value는 극단적인 데이터가 나올 ‘확률’이고, 유의수준은 그걸 판정하기 위한 ‘기준선’이다.
즉 p값이 0.05보다 크다 아니다로 효과가 있다 없다로 나뉨
표본이 작으면 표준오차(SE)가 커지고 신뢰구간이 넓어짐. 노이즈랑 불확실성이 커지기 때문에, 효과가 있음에도 불구하고 p>0.05로 나와버려서 → 우연 때문인 것처럼 보일 수 있다.”
이건 실제로는 효과가 있는데 (즉, H₁가 맞는데) 우리가 H₀를 기각하지 못한 상황 → 2종 오류에 해당
예시 무죄가 아닌데 무죄인것처럼 보여가지고 유죄다라는 판결을 못내리는 것
(표본이 작으면 효과가 있음에도 불구하고(상대적으로 효과가 작아보여), 불확실성이 커서 우연처럼(p>0.05) 보일 수 있다)
반대로 표본크기가 크면 표준 오차(SE)가 작아지고 신뢰구간이 좁고 그래프 모양이 뾰족해짐 노이즈랑 불활실성이 작아지기때문에, 효과가 없는데도 불구하고 p<0.05 로 나와버려 효과가 있는 것처럼 보일 수있음 즉 가설이 맞는데 아닌 것처럼 보이는 거-> 1종오류
예시 무죄가 맞는데 유죄인것럼 보여 유죄로 판정 하는 오류 1종오류
Q. 1종오류와 2종 오류를 안 범할 수 없는 건가??
A. 불가능
표본 수를 늘리면 검정력이 커져서(=차이를 잡아낼 힘) 2종 오류(실제로 효과가 있는데도 없다고 판단)가 줄어든다.
하지만 표본이 너무 커지면 아주 미세한 차이도 통계적으로 유의하게 잡혀서 “실제로는 큰 의미가 없는 차이”를 효과 있다고 착각할 수도 있다.
여러 번의 실험
같은 가설을 여러 번 반복 실험하면 우연에 의한 오류(특히 2종 오류)는 점점 줄어든다.
즉, 반복 검증을 통해 신뢰도가 높아진다.
현실의 시장조사나 사회 데이터 분석에서는 엄밀한 검증보다는 경향성 파악에 의미를 두는 경우가 많다.
이 과정에서 통계적으로 “유의수준 5%”라는 기준(즉, 1종 오류 가능성 5%)은 여전히 존재한다.
따라서 여러 번 실험하거나 데이터를 모아 분석한다고 해도, 우연히 잘못된 결론을 내릴 가능성은 항상 열려 있다.