카이제곱 검정
예를 들어 행 중에 한 개를 뺀 나머지가 다 정해지면 나머지 한 개는 무조건 값이 고정된 값이어야 되겠죠. 열도 마찬가지구요. 그래서 행에서 일 한 값이랑 열에서 일 한 값을 곱해야지 자유도가 나오게 됩니다.
사실 여러분들이 아까 t 테스트도 봤고 카이 제국도 봤고 윌콕스도 봤고 사실 코드상 구현하는 건 어렵지 않아요. 한 줄에 불과하고 그리고 대립 가설 세우고 귀무 가설 세우고 p값을 보는 그 과정 자체는 다 똑같았어요.
그러면 뭐 만 주의하면 되느냐? 내가 사용할
데이터에서 적절한 가설 검정을 가져와서 사용만 하면 되겠죠. 그래서 그것만 잘 지켜주시면 여러분들 충분히 여러분들이 가진 데이터에서 데이터 분석을 할 수 있게 됩니다.
그리고 지금 저는 임의로 이렇게 고객 세그먼트랑 국가 간의 관계를 봤잖아요. 또 여러분들이 얼마든지 다른 관계를 살펴볼 수도 있겠죠.
국가 말고 또 뭐가 있었나요? 아무튼 뭐가 있었던 거 같은데. 아무튼 뭐 예를 들어 나이는 없겠지만 나이가 있었다면 어
나이 간의 관계 아 나이란다. 성별 성별이 있었다면 성별 간의 관계도 볼 수 있었겠죠. 고객 사이그먼트랑 성별 간의 관계 뭐 이런 것들 그래서 얼마든지 여러분들이 응용해서 다양하게 해볼 수가 있습니다.
맞아요 👍 바로 그거예요!
유의수준 α = 0.05라면,
→ 귀무가설이 맞는데도 우연히 효과 있는 것처럼 보일 확률 = 5%
2번 하면?
두 번 다 안 틀릴 확률 =
0.95
×
0.9025
0.95×0.95=0.9025
즉, 한 번이라도 틀릴 확률 =
1
−
0.0975
≈
9.8
1−0.9025=0.0975≈9.8
10번 하면?
다 안 틀릴 확률 =
0.95
10
≈
0.60
0.95
10
≈0.60
즉, 한 번이라도 틀릴 확률 =
1
−
40
1−0.60=40
20번 하면?
다 안 틀릴 확률 =
0.95
20
≈
0.36
0.95
20
≈0.36
즉, 한 번이라도 틀릴 확률 =
1
−
64
1−0.36=64
α=0.05는 “한 번 할 때의 위험도”
다중검정에서는 그 위험이 반복되면서 누적
그래서 “가족 단위 오류율(FWER)”이 점점 커져버려요
🎯 비유
시험 문제 1문제 풀 때 틀릴 확률 5%
문제 20개 풀면, 하나도 안 틀릴 확률은
0.95
20
0.95
20
밖에 안 됨 → 결국 어딘가에서 틀릴 확률이 엄청 높아짐
👉 그래서 다중검정 오류는 “0.05가 그냥 여러 번 반복되면서, 결국은 훨씬 더 큰 확률이 된다”라고 이해하면 돼요.
다중검정을 하면,
각 검정마다 1종 오류(효과 없는데 효과 있다고 착각하는 오류)가 날 확률은 5% (α=0.05 기준)
근데 이걸 여러 번 하면 그 1종 오류가 날 확률이 누적돼서 전체적으로는 훨씬 높아져요.
즉,
👉 “다중검정을 하면 1종 오류가 범해질 확률이 높아진다”
= 다중검정 오류의 본질 ✅