베이즈 방식은 사전분포(prior)를 설정해야 한다.
보통 Beta(1,1) = Uniform prior를 쓰지만
prior 선택에 따라 결과가 달라짐
데이터가 매우 적을 때 prior의 영향이 지나치게 커짐
Wilson은 사전분포 없이, 정규근사 + 신뢰구간 원리만 사용하여 "최소-최대 편향을 줄이는 안정적 추정값"을 만든다.
Bayesian 방식은 posterior distribution을 제공하지만 그걸 이용해서 아래 항목의 추가적인 계산·설정이 필요하다.
credible interval을 계산하고
모델 성능을 판단하고
threshold나 pruning에 반영하는 과정
Wilson Score의 경우
비율의 “하한(lower bound)”을 즉시 제공한다.
이것만으로 정렬, 우선순위, 분기 판단이 바로 가능하다.
그래서 Reddit, StackOverflow, IMDB 평점 시스템에서도 "좋아요(top ranking)" 정렬에 Wilson Score를 그대로 사용한다.
Bayesian 추정
Beta posterior를 만들고
그 PDF/CDF를 계산해야 한다
credible interval 계산도 중요
특정 상황에서는 수치적 적분 필요
Wilson Score
단순한 닫힌 형태(closed form)의 지수 함수 하나로 끝난다.
베이지안 credible interval은 확률적 해석을 제공하지만 트리 분기 기준이나 모델 비교에는 과도하게 복잡하다.
Wilson Score
분기가 지나치게 optimistic 하지 않도록 억제
표본 불균형 또는 작은 표본에서 robust
계산이 빠름 → pruning이나 grid search에 적합
그래서 C4.5 pruning에서는 Wilson Score 기반의 보정 오류율(e) 을 쓴다.
Wilson Score는 “보수적인 성능 추정”이라는 직관이 명확하다.
예시
성공률이 100%, 실패 0%라고 해도
데이터가 10개밖에 없다면 믿을 수 없음.
Bayesian도 비슷한 효과를 만들 수 있지만, prior 선택이 결과에 큰 영향을 주기 때문에 설명력이 떨어지고 합의가 어렵다.
| 항목 | Wilson Score | Bayesian |
|---|---|---|
| 계산 난이도 | 매우 쉬움 | 상대적으로 복잡 |
| 표본 수 적을 때 안정성 | 높음 | prior에 의존적 |
| prior 설정 필요 | 없음 | 필요함 |
| 실무 적용성 | 매우 높음 | 상황에 따라 다름 |
| 속도 | 매우 빠름 | posterior 계산 필요 |
Bayesian은 이론적으로 더 일반적이고 유연하지만,
현실에서는 Wilson Score가 설정 없이 안정적이고 빠르기 때문에 더 실용적이다.