카이제곱 검정

김하경·2025년 9월 27일

통계

목록 보기
10/13

카이제곱 검정

예를 들어 행 중에 한 개를 뺀 나머지가 다 정해지면 나머지 한 개는 무조건 값이 고정된 값이어야 되겠죠. 열도 마찬가지구요. 그래서 행에서 일 한 값이랑 열에서 일 한 값을 곱해야지 자유도가 나오게 됩니다.

카이제곱의 자유도 t-test자유도는 다르다

👍 “다중검정 오류(다중비교 문제, multiple testing problem)”는 검정을 여러 번 하면 할수록 우연히 ‘효과 있는 것처럼’ 보이는 결과가 더 잘 튀어나온다는 거예요.

사실 여러분들이 아까 t 테스트도 봤고 카이 제국도 봤고 윌콕스도 봤고 사실 코드상 구현하는 건 어렵지 않아요. 한 줄에 불과하고 그리고 대립 가설 세우고 귀무 가설 세우고 p값을 보는 그 과정 자체는 다 똑같았어요.
그러면 뭐 만 주의하면 되느냐? 내가 사용할
데이터에서 적절한 가설 검정을 가져와서 사용만 하면 되겠죠. 그래서 그것만 잘 지켜주시면 여러분들 충분히 여러분들이 가진 데이터에서 데이터 분석을 할 수 있게 됩니다.
그리고 지금 저는 임의로 이렇게 고객 세그먼트랑 국가 간의 관계를 봤잖아요. 또 여러분들이 얼마든지 다른 관계를 살펴볼 수도 있겠죠.
국가 말고 또 뭐가 있었나요? 아무튼 뭐가 있었던 거 같은데. 아무튼 뭐 예를 들어 나이는 없겠지만 나이가 있었다면 어
나이 간의 관계 아 나이란다. 성별 성별이 있었다면 성별 간의 관계도 볼 수 있었겠죠. 고객 사이그먼트랑 성별 간의 관계 뭐 이런 것들 그래서 얼마든지 여러분들이 응용해서 다양하게 해볼 수가 있습니다.

맞아요 👍 바로 그거예요!

  1. 한 번 검정할 때

유의수준 α = 0.05라면,
→ 귀무가설이 맞는데도 우연히 효과 있는 것처럼 보일 확률 = 5%

  1. 여러 번 할 때 (독립이라고 가정)

2번 하면?

두 번 다 안 틀릴 확률 =
0.95
×

0.95

0.9025
0.95×0.95=0.9025

즉, 한 번이라도 틀릴 확률 =
1

0.9025

0.0975

9.8
1−0.9025=0.0975≈9.8

10번 하면?

다 안 틀릴 확률 =
0.95
10

0.60
0.95
10
≈0.60

즉, 한 번이라도 틀릴 확률 =
1

0.60

40
1−0.60=40

20번 하면?

다 안 틀릴 확률 =
0.95
20

0.36
0.95
20
≈0.36

즉, 한 번이라도 틀릴 확률 =
1

0.36

64
1−0.36=64

  1. 핵심 아이디어

α=0.05는 “한 번 할 때의 위험도”

다중검정에서는 그 위험이 반복되면서 누적

그래서 “가족 단위 오류율(FWER)”이 점점 커져버려요

🎯 비유

시험 문제 1문제 풀 때 틀릴 확률 5%

문제 20개 풀면, 하나도 안 틀릴 확률은
0.95
20
0.95
20
밖에 안 됨 → 결국 어딘가에서 틀릴 확률이 엄청 높아짐

👉 그래서 다중검정 오류는 “0.05가 그냥 여러 번 반복되면서, 결국은 훨씬 더 큰 확률이 된다”라고 이해하면 돼요.
다중검정을 하면,

각 검정마다 1종 오류(효과 없는데 효과 있다고 착각하는 오류)가 날 확률은 5% (α=0.05 기준)

근데 이걸 여러 번 하면 그 1종 오류가 날 확률이 누적돼서 전체적으로는 훨씬 높아져요.

즉,

👉 “다중검정을 하면 1종 오류가 범해질 확률이 높아진다”
= 다중검정 오류의 본질 ✅

0개의 댓글