헷갈리는 용어 정리
- 모집단 : 조사하고자 하는 모든개체 또는 사건의 집합
- 모수 : parameter.
- 최대가능도 : 표본 데이터를 잘 설명하는 모수(parameter)를 찾는 방법중 하나
- 로그가능도 : 최대 가능도 추정할때 로그를 씌워준다. 로그가능도를 최대화 하는 parameter는 로그가능도를 최대화 하는 모수값과 동일하다.
- 정규분포 : 종형의 곡선형태를 가진다.
- 독립적인 표본 : 한집단의 결과가 다른집단의 결과에 영향을 주지 않는 표본집단
- 가중치 : 각 데이터 포인트에 부여되는 상대적인 중요성.
- 선험적(a priori) : 이전에 알고 있는 지식이나 사전지식에 근거하여 이끌어지는 것
- 예: 모든 삼각형의 내각의 합은 180도 이다.
통계적 모델링은 적절한 가정 위에서 확률분포를 추정하는것이 목표이며, 기계학습, 통계학이 공통적으로 추구하는 목표이다.
그러나 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아낸 다는것은 불가능 하므로 근사적으로 확률분포를 추정할 수 밖에 없다.
-> 정확하게 맞추기보다 불확실성을 고려해서 위험을 최소화하는것이 목표.
둘다 모수를 사용하는 것을 유의하자.
히스토그램 : 데이터의 빈도분포를 시각적으로 나타내는 그래프
베르누이분포, 카테고리분포, 베타분포, 감마분포, 정규분포 등등
다양한 가정하는 방법이 있는데 기계적으로 확률분포를 가정해서는 안되며
데이터를 생산하는 원리를 먼저 고려하는 것이 원칙이다.
다시말하면, 그냥 바로 확률분포를 떄리지말고, 데이터가 2개의 값을 가지냐, n개의 이산적이냐, 0,1사이의 값이냐, 0이상의 값이냐, R전체에서 값을 가지냐 등등 조건을 따라 선택해야한다.
데이터의 확률분포를 가정했으면 모수를 추정할 수있다.
정규 분포의 모수는 평균u과 분산q2으로 이를 추정하는 통계량을 알 수 있다.
표본평균의 표집분포
표본 평균의 확률평균이 정규분포를 따른다.
표본의 분포는 정규분포를 따르지 않을 수 있다.
통계량의 확률분포를 표집분포라 부르며, 특히 표본평균의 표집분포는 N이 커질수록 정규분포(N)을 따른다. -> 이를 중심극한정리라 부르며 모집단의 분포가 정규분포를 따르지 않아도 성립한다.
하지만 표본평균, 표본분산은 중요한 통계량이지만, 확률분포마다 사용하는 모수(parameter)가 다르므로 통계량이 달라진다.
이론적으로 가장 가능성이 높은 모수를 추정하는 방법은 최대가능도 추정법(Maximum likelihood Estimation, MLE)라고 부른다.
이는 주어진 변수 x에 대해 모수0(세타)가 값이 바뀌는 함수이다.
세타에 대해서 크고, 작음을 나타내는 대소비교가 가능한 함수로 이해하자.
가능도 함수의 경우 데이터 X가 독립적으로 추출되었을 경우 로그가능도를 최적화합니다.
로그가능도(log Likelihood)를 사용하는 이유
- 데이터의 숫자가 수억개이상일때 컴퓨터의 정확도로 liklihood 정확도를 구하는건 불가능하다. 수학적으로 0에서 수억개의 자리수를 곱하면 연산오차때문에 불가능하다.
- 데이터가 독립으로 로그를 취한다음에 더해준다면, 이경우는 컴퓨터의 경우 덧셈연산이 쉽게 가능하다.
쉽게 말하면 컴퓨터가 곱셈은 힘들어해서 로그가능도를 쓴다! (더하기로 가능)
정규 분포를 따르는 확률변수 X로부터 독립적인 분포를 얻었을때 최대가능도 추정법을 이용하면?
로그를 씌우면 로그의 성질에 따라서 곱셈을 더하기로 바꿀수 있고,
분모에있는 루트 2파이 세타제곱이 분자로 나오게된다.
데이터들의 표본평균이 평균가능도와 일치하지만, 분산의 경우 최대가능도로 구하면 1/n이 나온다. 앞에서 추정된 모수와 다른 추정량이 나온다.
여러가지 통계량을 쓸 수 있는데 MLE의경우 Likelihood를 최적화하는 통계방법이지만, 불편추정량을 보장하지는 않는다.
라그랑주 승수법 : 최적화 문제에서 제약조건이 있는경우 원래 목적함수 + 등식 제약함수(라그랑주 승수)를 결합해 새로운 함수를 만들고 이 함수를 최소, 최대화 하여 최적해를 찾는방법.
최대가능도 추정법을 이용한다.
- 가중치를 0이라 표기했을때 분류 문제에서 소프트맥스 벡터는 카테고리 분포의 모수를 모델링한다.
- 원핫벡터로 표현한 정답레이블 y= 를 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그가능도를 최적화 할 수 있다.
후기 : 진짜어렵다.. 갑자기 4주차 부터 알아듣기 어려운게 너무많이 나와서 chatgpt한테 몇번이나 물어본지 모르겠다. 실 프로젝트에 적용하면서 알아야 할것같다.