퍼포먼스 마케터 부트캠프 7주 3일차 (참여 27일차)

MIN BAEK·2025년 6월 25일

가설 검정

내가 이해한 바로는...
가설검정은

데이터에 대해 ‘차이가 없다’(귀무가설)고 먼저 가정하고, 실제 데이터로부터 통계량(차이의 크기 등)을 계산하고 이 통계량이 우연히 나올 확률(p-value)를 계산해서 그 확률(p-value)이 충분히 낮다면, '이건 우연이 아니다'라고 판단해서 차이가 있다고 보는 것

✅ 참고: "차이"는 꼭 평균 차이만 의미하는 건 아님

상관관계: 수치형 변수 간의 연관
카이제곱: 범주형 변수 간의 독립성
t검정: 그룹 간 평균 차이

👉 모든 경우에도 결국은:
관계가 없다(귀무가설) → 통계량 계산 → 우연일 확률(p-value) → 판단

가설 검정 단계

1️⃣ 가설 설정 : 귀무가설(H₀): 차이 없음, 대립가설(H₁): 차이 있음
2️⃣ 데이터 수집 : 각 그룹의 실제 데이터를 얻음
3️⃣ 검정통계량 계산 : 그룹 간 차이를 수치로 계산
4️⃣ p-value 계산 : “이 정도 차이가 우연히 생길 확률” 계산
5️⃣ 판단

거짓 양성이 발생하는 이유

🎯 전제부터 다시 정리하면

우리가 어떤 검정을 할 때 유의수준 α = 0.05를 쓴다는 건, "귀무가설이 맞는데도 5% 확률로 틀렸다고 나올 수 있음"을 의미

즉, 실제로는 효과가 없는데도 우연히 눈에 띄는 차이가 생겨서 p-value가 0.05보다 작게 나올 수 있다

📌 그럼 왜 여러 번 하면 문제가 될까?

예: 동전 던지기
공정한 동전을 던졌을 때, 앞면이 9번 이상 나올 확률은 대략 5%
한 번 던지면 그럴 확률은 낮다
하지만 10번 던지면?
→ 적어도 한 번쯤은 운 좋게(혹은 우연히) 9번 나올 수 있음

이것이 거짓 양성(False Positive)의 핵심

오류	설명	예시
1종 오류(False Positive)	사실은 효과 없는데 "있다"고 착각	실제론 약이 효과 없는데 "있다"고 결론 냄
2종 오류(False Negative)	사실은 효과 있는데 "없다"고 착각	실제론 약이 효과 있는데 "없다"고 결론 냄

1종 오류 줄이기
→ 유의수준을 0.05 → 0.01로 낮춤
→ 조금이라도 애매하면 약 효과 없다 판단
✅ 거짓된 약을 막는 데에는 성공
❌ 진짜 좋은 약도 "효과 없다"며 놓칠 수 있음 → 2종 오류 증가

2종 오류 줄이기
→ 유의수준을 0.05 → 0.10으로 높임
→ 애매하면 효과 있다고 판단
✅ 좋은 약을 잘 찾음
❌ 효과 없는 약도 "좋다"며 출시될 수 있음 → 1종 오류 증가

오늘의 질문

통계학 기초 3주차 연습 문제 2번

 문제2. 가설검정에서 귀무가설과 대립가설의 차이에 대한 설명으로 옳은 것을 고르세요.
1) 귀무가설은 연구자가 입증하고자 하는 주장이고, 대립가설은 현재 상태를 나타낸다.
2) 귀무가설은 현재 상태를 나타내며, 대립가설은 연구자가 입증하고자 하는 주장이다.
3) 귀무가설과 대립가설은 동일한 개념이다.
4) 귀무가설은 대립가설의 반대를 나타낸다.

귀무가설과 대립가설을 반대의 개념으로 보면 안되는 걸까?

RE : "반대"를 한쪽 방향으로만 생각하는 실수를 범하기 쉬워서 통계에서는 지양하는 표현
예를 들어...
대립가설 : 다이어트약 복용 후 체중이 감소할 것이다
귀무가설 : 다이어트약 복용 후 체중이 증가할것이다
위의 예시는 반대지만 성립 안 됨, 틀린 표현!!

MIN BAEK

안녕하세요 백민입니다:)

이전 포스트

퍼포먼스 마케터 부트캠프 7주 2일차 (참여 26일차)

다음 포스트