확률분포를 가정하는 방법 : 우선 히스토그램을 통해 모양 관찰
데이터가 2개의 값 (0, 1) 만 가지는 경우 → 베르누이 분포
데이터가 n 개의 이산적인 값을 가지는 경우 → 카테고리 분포
데이터가 [0, 1] 사이에서 값을 가지는 분포 → 베타분포
데이터가 0 이상의 값을 가지는 경우 → 감마분포, 로그정규분포 등
데이터가 (실수) 전체에서 값을 가지는 경우 → 정규분포, 라플라스분포 등
→ 연속확률분포와 이산확률분포를 관찰되는 분포에 따라 결정할 수 있음
기계적으로 확률분포를 가정 x, 데이터를 생성하는 원리를 먼저 고려하는 것이 원칙 (데이터를 관찰하고 선택해야함)
→ 어떤 확률분포로 모델링했을 때 모수 추정과 더불어 반드시 각 분포에 적절한 방법으로 검정을 해야함
- 불편추정량을 보장하진 않지만 consistence 는 보장
카테고리 분포 Multonoulli(x; p1, ..., pd) 를 따르는 확률변수 X 로부터 독립적인 표본 {x1, ..., xn} 까지 얻었을 때 최대가능도 추정법을 이용하여 모수를 추정하면?
(정규분포의 모수는 평균과 분산이라는 통계량인 반면, 카테고리 분포의 p 들은 1~d 차원까지 각각의 차원에서 값이 1 또는 0 이 될 확률을 의미하는 모수 → p1 ~ pd 다 더하면 1)
(Q. MLE 식에 대한 정확한 뜻을 모르겠음 → 원딜님 피피티 다시보자)
BoostCamp AI Tech