사내 연애가 들키는 경우를 잠시 생각해보자. 시가지에서 특정 사내 남녀의 데이트 장면을 3번이나 발견했다면 우리는 누구나 '아 저 둘이 사귀는 구나'라고 생각하게 된다.
본 것은 3번이지만 보통 더 자주 만났을 것이라고 자연스럽게 생각을 하게 되며 이 추론의 기저에는 두 남녀의 데이트 사건이 이미 흔하게 일어났었고(=빈도가 높음, 발생확률이 높음), 그렇기에 내가 목격 한것이지 무언가 내가 특별한 동선을 가져서 봤다고 생각하지 않기 때문이다.
Likelihood
- Likelihood : 지금 얻은 데이터가 어떤 확률 분포로부터 나왔을 가능도
- 가능도 계산 방법 : 각 데이터 샘플에서 후보 확률 분포에 대한 높이(즉, Likelihood 기여도)를 계산해서 모두 곱하는 것
- Likelihood function
P(x∣θ)=k=1∏np(xk∣θ)θ:확률분포xk:모든데이터p:확률밀도
Maximum Likelihood Estimation
한 바둑통에 검은돌, 흰 돌이 섞여 합쳐서 총 500개의 돌이 있는데, 50번의 돌을 꺼내니 검은 돌이 40개, 흰 돌이 10개 나왔다. 그렇다면 바둑통에는 몇 개의 검은 돌이 있는지 최대 우도 추정법(MLE)을 통해 풀어보면?
직관적으로는 400개의 검은 돌이 있을 것으로 예상하지만 왜?
바둑 통 내 구성 상태를 표현하는 변수는 단 하나인 p
p=전체바둑돌수검은돌수1−p=전체바둑돌수흰돌수
핵심 포인트: 우리가 목격한 사건이 확률적으로 일어난 사건으로 생각하기
50번의 바둑돌을 꺼냈을 때, 40개의 검은 돌과 10개의 흰 돌을 목격할 확률은 얼마인가!
가정 : 첫 번째 바둑 돌을 꺼낸 사건이 두 번째 바둑 돌을 꺼낼 때 영향을 주지 않을 것이다. => 독립 사건으로 생각
P(사건들∣p)=p40(1−p)10×50C40
바둑 통 안에 구성 상태를 의미하는 p∗ 는 우리가 목격한 사건들이 발생할 확률을 가장 높게 만드는 p이다.
p∗=pargmaxp40(1−p)10×50C40
핵심 포인트
x<ylog(x)<log(y)
즉 로그를 취한 값의 max가 나오는 p를 찾아보자
f(p)=log(50C40)+40log(p)+10log(1−p)f′(p)=p40−1−p10=0p∗=5040
즉, 500개 중 검은 돌의 수는 500×p∗=400으로 추정하는 것이 논리적임.