이 글은 부스트캠프 AI Tech 3기 강의를 듣고 정리한 글입니다.
확률분포를 가정하는 방법
우선 히스토그램을 통해 모양을 관찰
해당사항이 있다고 기계적으로 확률분포를 가정해서는 안되며, 데이터를 생성하는 원리를 먼저 고려하는것이 원칙
데이터의 확률분포를 가정했다면 모수를 추정해 볼 수 있다.
이항 분포에서
통계량(not 표본) 의 확률분포를 표집분포(sampling distribution)라 부르며, 특히 표본평균의 표집분포는 N이 커질수록 정규분포를 따른다
이를 중심극한정리라 부르면 모집단의 분포가 정규분포를 따르지 않아도 성립!
이항분포에서 통계량(평균) 을 계속 뽑아 그래프를 그려보면 다음과 같다.
MLE의 필요성
MLE의 의미
모수(θ)를 따르는 분포가 데이터 X를 관찰할 가능성을 뜻한다.
여기서 주의할 점은 θ에 대한 MLE 값을 확률로 해석하면 안된다. (θ에 대해서 적분하게 되면 1이 나오지 않기 때문에)
그냥 각 θ에 대해서 대소비교가 가능한 것 정도로 이해하면 된다.
로그 가능도, 가능도 모두 MLE가 될수 있다.
하지만 보통 로그 가능도를 사용하게 되는데, 이는 최적화 관점에서 좋기 때문이다.
정규분포를 따르는 확률변수 X로 부터 독립표본 {x_1, ... , x_n}을 얻었을 때 MLE추정법을 이용하여 모수를 추정하면?
θ에 정규분포식을 대입하여 계산한 결과 마지막수식의 결과가 나오게 된다.
이때 마지막 수식을 평균과 분산에 대해서 각각 미분을 해주면 최적화할 수 있다.
이때 MLE는 불편추정량과 식이 거의 같지만 불편추정량을 보장하진 않는다
단 Consistentcy(일치성 : n이 커짐에 따라 모수에 근접하는 성질)은 보장한다.
카테고리 분포 (Multinoulli)를 따르는 확률변수 X 로부터 독립표본 {x_1, ... , x_n}을 얻었을 때 MLE추정법을 이용하여 모수를 추정하면?
이때 오른쪽 제약식을 만족하면서 목적식을 최대화 하는 것이 우리가 구하는 MLE이다.
목적식에 제약식이 있기 떄문에 바로 미분을 하지 않고 라그랑주 승수법을 통해 새로운 목적식을 만들어 MLE를 구하게 된다.
각각의 모수에 대하여 미분하고 라그랑주 승수에 대하여 미분하여 값을 구하게 된다.
결국 카테고리 분포의 MLE는 경우의 수를 세어서 비율을 구하는 것이라는 직관적인 모수가 나오게 된다.
기계학습에서 사용되는 손실함수들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리를 통해 유도
데이터 공간에 두개의 확률분포 P(X), Q(X)가 있을 경우 두 확률분퐈이의 거리는 다음의 함수들을 이용
교차 엔트로피와 함께 보면 좋은 개념이라 따로 정리 하였다.
쿨백 - 라이블러 발산 정리(with Entropy & Cross Entropy)
정의
분해