내가 이해한 바로는...
가설검정은
데이터에 대해 ‘차이가 없다’(귀무가설)고 먼저 가정하고, 실제 데이터로부터 통계량(차이의 크기 등)을 계산하고 이 통계량이 우연히 나올 확률(p-value)를 계산해서 그 확률(p-value)이 충분히 낮다면, '이건 우연이 아니다'라고 판단해서 차이가 있다고 보는 것
✅ 참고: "차이"는 꼭 평균 차이만 의미하는 건 아님
👉 모든 경우에도 결국은:
관계가 없다(귀무가설) → 통계량 계산 → 우연일 확률(p-value) → 판단
1️⃣ 가설 설정 : 귀무가설(H₀): 차이 없음, 대립가설(H₁): 차이 있음
2️⃣ 데이터 수집 : 각 그룹의 실제 데이터를 얻음
3️⃣ 검정통계량 계산 : 그룹 간 차이를 수치로 계산
4️⃣ p-value 계산 : “이 정도 차이가 우연히 생길 확률” 계산
5️⃣ 판단
🎯 전제부터 다시 정리하면
우리가 어떤 검정을 할 때 유의수준 α = 0.05를 쓴다는 건, "귀무가설이 맞는데도 5% 확률로 틀렸다고 나올 수 있음"을 의미
즉, 실제로는 효과가 없는데도 우연히 눈에 띄는 차이가 생겨서 p-value가 0.05보다 작게 나올 수 있다
📌 그럼 왜 여러 번 하면 문제가 될까?
예: 동전 던지기
공정한 동전을 던졌을 때, 앞면이 9번 이상 나올 확률은 대략 5%
한 번 던지면 그럴 확률은 낮다
하지만 10번 던지면?
→ 적어도 한 번쯤은 운 좋게(혹은 우연히) 9번 나올 수 있음
이것이 거짓 양성(False Positive)의 핵심
| 오류 | 설명 | 예시 |
|---|---|---|
| 1종 오류(False Positive) | 사실은 효과 없는데 "있다"고 착각 | 실제론 약이 효과 없는데 "있다"고 결론 냄 |
| 2종 오류(False Negative) | 사실은 효과 있는데 "없다"고 착각 | 실제론 약이 효과 있는데 "없다"고 결론 냄 |
1종 오류 줄이기
→ 유의수준을 0.05 → 0.01로 낮춤
→ 조금이라도 애매하면 약 효과 없다 판단
✅ 거짓된 약을 막는 데에는 성공
❌ 진짜 좋은 약도 "효과 없다"며 놓칠 수 있음 → 2종 오류 증가
2종 오류 줄이기
→ 유의수준을 0.05 → 0.10으로 높임
→ 애매하면 효과 있다고 판단
✅ 좋은 약을 잘 찾음
❌ 효과 없는 약도 "좋다"며 출시될 수 있음 → 1종 오류 증가
통계학 기초 3주차 연습 문제 2번
문제2. 가설검정에서 귀무가설과 대립가설의 차이에 대한 설명으로 옳은 것을 고르세요. 1) 귀무가설은 연구자가 입증하고자 하는 주장이고, 대립가설은 현재 상태를 나타낸다. 2) 귀무가설은 현재 상태를 나타내며, 대립가설은 연구자가 입증하고자 하는 주장이다. 3) 귀무가설과 대립가설은 동일한 개념이다. 4) 귀무가설은 대립가설의 반대를 나타낸다.
귀무가설과 대립가설을 반대의 개념으로 보면 안되는 걸까?
RE : "반대"를 한쪽 방향으로만 생각하는 실수를 범하기 쉬워서 통계에서는 지양하는 표현
예를 들어...
대립가설 : 다이어트약 복용 후 체중이 감소할 것이다
귀무가설 : 다이어트약 복용 후 체중이 증가할것이다
위의 예시는 반대지만 성립 안 됨, 틀린 표현!!