데이터 포인트들이 서로 독립이므로, 데이터셋 전체의 likelihood p(Y∣θ,X)는 데이터 포인트 각각의 likelihood를 모두 곱한 값과 같습니다.
p(Y∣θ,X)=∏np(yn∣θ,xn)
MLE를 실제로 적용할 때는 likelihood 대신 log likelihood를 최대화하는 파라미터를 구합니다. 데이터셋의 likelihood가 데이터 포인트 각각의 likelihood를 곱한 형태인데, 로그를 씌우면 곱셈 연산이 덧셈 연산으로 바뀌면서 미분 계산이 편리해집니다.
또한 로그 함수는 단조 증가(monotonically increasing)하므로 likelihood를 최대화하는 파라미터와 log likelihood를 최대화하는 파라미터 값이 같아서 학습 결과에 영향을 주지 않습니다.
# MLE의 최적해는 오로지 관측된 데이터 값에만 의존 한다
계산이 비교적 간단하다는 장점이 있지만, 관측된 데이터에 노이즈가 많이 섞여 있는 경우, 이상치(outlier) 데이터가 존재하는 경우에는 모델의 안정성이 떨어진다는 단점도 있습니다.
27.6 MAP: 최대 사후 확률 추정
prior 분포의 등장
직관적으로, 이런 데이터가 있을 때 파라미터의 값이 무엇일 확률이 제일 높은가?
데이터셋이 주어졌을 때 파라미터의 분포, 즉 p(θ∣X)에서 확률 값을 최대화하는 파라미터 θ를 찾습니다.
MAP의 최적 파라미터 θMAP=(X⊤X+α2σ2I)−1X⊤y
27.7 MLE와 MAP의 비교
MLE와 MAP의 최적 파라미터는 각각 다음과 같습니다.
θMLE=(X⊤X)−1X⊤y θMAP=(X⊤X+α2σ2I)−1X⊤y
노이즈 분포의 표준편차 σ는 0.1로 가정하고, 파라미터 분포의 표준편차 α는 0.04로 지정하겠습니다. 정규화 상수 λ가 α2 에 반비례하는 값입니다. α가 작을수록, 즉 파라미터 분포의 표준편차를 작게 잡을수록 파라미터 값에 대한 제약 조건을 강하게 걸어주는 것과 같습니다.
정규화 측면에서 봐도 λ 값이 클수록 모델의 유연성은 감소하죠.