모수: 모집단의 특성(모평균,모분산 등..)을 나타내는 값
제한된 데이터(모수)로 모델을 만들어도 되는 이유: 데이터와 추정방법의 불확실성을 고려한 상태에서 예측의 위험을 최소화 하는 방향으로 학습하는 것으로 충분하기 때문!
모수적 방법론: 데이터가 특정 확률분포를 따른다고 선험적으로(a priori) 가정 후 그 분포를 결정하는 모수(parameter)를 추정하는 방법
비모수 방법론: 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수를 유연하게 바꾸는 방법
--> 모수가 무한히 많거나 계속 바뀌는 것이지, 모수가 없는 것이 아님!
정규분포의 모수: 모 평균μ, 모 분산 σ2
통계량: 표본평균, 표본분산
실제 얻을 수 있는 모집단 분포,표본 분포와는 달리,
. 통계적 추론을 위해,
. 무수히 많은 기회 표본 집단에 대한 표본 통계량을 확률변수로 취하는,
. 이론적인 확률 분포
원래 확률밀도함수는 모수θ가 주어져있을때 x에 대한 함수로 해석하지만 likelihood는 주어진 x에 대해 모수θ를 변수로 둔 함수.
data가 주어져있는 상황에서 θ를 변형시킴에 따라 값이 바뀌는 함수.
θ에 따라 x를 관찰할 가능성. θ에 대한 확률이 아니라 대소비교만 하는 느낌.
데이터집합 X의 각 행벡터가 독립추출 되었을 경우 확률질량함수들의 곱으로 표현 가능
--> log로 곱셈을 덧셈으로 바꿔줌(연산량, 정확도를 위해)
MLE가 unbias 추정량을 보장하진 않지만 consistency는 보장 가능
딥러닝 모델의 weight를 θ(W(1) ~ W(L))로 표현했을 때 분류문제(classification)에서 소프트맥스 벡터가 카테고리분포의 모수(p1 ~ pk)를 모델링
정답레이블 y를 원핫벡터로 표현해 로그가능도 최적화 가능
cost function은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리릍 통해 유도
--> Kullback-Leibler Divergence, KL을 이용
정답레이블이 P, 모델 예측이 Q일 경우 MLE == KL을 최소화 하는 것과 같다