신뢰구간과 신뢰수준의 관계 죽기 전에는 알것쥬~

히제오·2020년 10월 6일
0

통계 til

목록 보기
2/2
post-thumbnail

신뢰구간... 신뢰수준... 이걸 공부하다가 통계와 더 더 불화하게 될 뻔했다. 간신히 이해한 것을 잊기 전에 정리해보려고 한다. feat. 재명님의 찰떡 비유

표본의 크기가 동일하다고 가정하고, 다음의 두 예측을 비교해보도록 하겠다.

표본의 크기: 히제오의 인생 스펙트럼
예측1. 신뢰구간과 신뢰수준의 관계를 배우고 난 뒤 30분 내에는 이해할 것이다
예측2. 신뢰구간과 신뢰수준의 관계를 배우고 난 뒤 죽기 전에는 이해할 것이다

예측1예측2에 비해 신뢰 구간(말하자면 30분 내)이 좁지만, 신뢰 수준은 낮다고 볼 수 있다. 내가 정말 30분 내에 이해할 관상으로 보이오? 히제오가 신뢰구간과 신뢰수준을 이해하려고 머리를 싸매다가 30분 땡! 지나버리면 틀린 예측이 되어버리는 것.

예측2예측1에 비해 신뢰 구간이 극단적으로 넓다. 뭐... 거의 인생 스펙트럼의 전반을 신뢰구간으로 잡고 있다고 볼 수 있다. 이런 경우, 히제오가 2020년에 신뢰구간과 신뢰수준의 관계를 공부하기 시작했는데 2100년 죽기 직전 퍼뜩 이해했다가 바로 죽어버리는 경우에도 옳은 예측이 된다. 따라서 신뢰 수준은 상대적으로 엄청 높다. 그러나.. 이딴 예측은 어떤 인사이트도 줄 수 없다.

따라서 신뢰구간과 신뢰수준 사이에는 적절한 타협이 필요하다

그래서 보통 95%, 99% 등으로 신뢰수준을 고정하고 사용한다.

표본의 크기와 신뢰수준도 관계가 있다

아까 본 예측에서, 예측 당사자(물론 저입니다만...)는 표본의 크기를 '히제오 1명의 의 인생 스펙트럼'으로 한정했다. 표본의 크기를 '데잇걸즈 25명의 인생 스펙트럼'으로 키운다면 어떻게 될까?

같은 신뢰구간이더라도 모수를 포함할 확률이 더 많아진다... 말하자면, 예측1 "신뢰구간과 신뢰수준의 관계를 배우고 난 뒤 30분 내에는 이해할 것이다"의 경우, 히제오 1명만이 표본일 경우에 히제오가 50분 걸려서 이해하면 이 예측은 완전 틀린 예측이 되어버린다. 그러나 히제오가 50분 걸리더라도 현진님, 지은님, 다슬님, 주현님... 데잇걸즈의 똑똑한 선생님들 몇 명이 이 개념을 30분 내에 이해하신다면, 예측1의 신뢰수준은 쭉쭉 올라가는 것이다.

신뢰수준을 고정하고 표본의 크기를 키운다면 신뢰 구간은 더욱 더 좁아진다

예측 2 "신뢰구간과 신뢰수준의 관계를 배우고 난 뒤 죽기 전에는 이해할 것이다"의 표본이 100명이었다고 다시 가정해보자. 100명 중 90명은 신뢰구간과 신뢰수준을 배운 뒤 5시간 내에 이해를 했고, 5명은 죽기 직전에, 5명은 죽어서도 이해를 못 했다.

이런 상황에서 95%의 신뢰수준을 유지하고 표본을 100명 더 모집했다고 생각해보자. 추가된 100명 중 95명은 죽기 전은 죽기 전인데 개념을 배운 뒤 10년 내에는 이해를 했고, 나머지 5명은 결국 또 죽어서도 이해를 못 했다. 이 경우, 95%의 신뢰수준을 유지한다면 신뢰 구간은 배운뒤 ~ 10년으로 좁힐 수 있다. '죽기 전에는 알겄쥬~' 보다는 훨씬 정보값이 있는 예측이 됐다.

그러니까 마지막으로 정리해보면

신뢰수준이 높다는 것은 신뢰구간이 모수를 포함하는 표본들의 비율이 높음을 의미. 따라서 신뢰수준이 높을 수록 오차범위의 크기를 결정하는 특정값인 임계치의 값도 커진다. 다만, 신뢰수준이 동일한 상황, 즉 임계치의 값이 고정된 상황에서는 신뢰구간을 더 좁히기 위해 표본의 크기를 더 키울 수 있다.

ps1. 예측1은 히제오의 경우 완전히 틀린 예측이 되었다고 합니다.
ps2. 이 설명이 정말 맞는 설명인지는 아직까지도 잘 모르겠다고 하니.. 예측2가 옳은 예측이 될 수 있도록 많은 도움이 필요하다고 합니다.

profile
삽질 전문가. 모든 일에 진심인 편.

0개의 댓글