관찰하는 집단(모집단)의 특성(평균, 분산 ...)
통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference)하는 것이 목표이다.
유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아내는 것은 불가능하며, 근사적으로 확률분포를 추정할 수 밖에 없다.
예측모형의 목적은 분포를 정확하게 맞춘다기 보다 데이터와 추정 방법의 불확실성을 고려하여 위험을 최소화는 것이기 때문이다.
데이터가 특정 확률분포를 따른다고 선험적으로(priori) 가정한 후 그 분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적(parametric) 방법론 이라고 한다.
특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수(non-parameteric) 방법론이라고 한다.
주의할점은 비모수 방법론이라고 해서 모수가 없다가 아니라 모수가 무수히 많거나 변화하는 것을 의미한다.
확률분포를 가정하는 방법은 우선 히스토그램을 통해 모양을 관찰한다.
데이터가 2개의 값(0 또는 1)만 가지는 경우는 베르누이 분포
데이터가 n개의 이산적인 값을 가지는 경우는 카테고리 분포, 다항분포
데이터가 [0,1]사이에서 값을 가지는 경우는 베타분포
데이터가 0 이상의 값을 가지는 경우는 감마분포, 로그정규분포 등
데이터가 전체에서 값을 가지는 경우는 정규분포, 라플라스분포 등
주의
기계적으로 확률분포를 가정해서는 안 되며, 데이터를 생성하는 원리를 먼저 고려하는 것이 원칙이다.
모수를 추정한 후 적절한 검정 방법론을 통해 검정과정이 필요하다.
데이터의 확률분포를 가정했다면 모수를 추정할 수 있다.
정규분포의 모수는 평균과 분산으로 이를 추정하는 통계량(statistic)은 아래와 같다.
표본분산에 산술평균을 취할때 로 정의하는데 그 이유는 불편(unbiased) 추정량을 구하기 위해서다.
표본의 분산은 모집단의 분산을 Underestimate(과소평가)하여 (표본분산 < 모집단의 분산)과 같은 상태가 되기 때문에 이를 보정하기 위해 을 취함으로 전체 표본분산을 크게 만든다.
모평균을 추정하기 위해 표본평균을 구하고 이 표본평균을 기준으로 편차를 계산하게 되면 실제 모평균을 과소평가하게 된다.
두 번째로 샘플링한 분산에서는 자유도가 이기 때문이다.
자유도란 파라미터 예측에 필요한 독립적인 형태의 정보의 수를 의미한다. 즉 파라미터를 예측하기 위해 중간과정에 사용되는 파라미터의 수를 전체 독립적인 정보의 수에서 빼줘야 한다. 이런 정의를 기반으로 표본분산은 의 자유도를 가지게 되는데 그 이유는 중간 과정에서 표본평균을 구하고 표본분산을 구하기 때문에 해당 파라미터 개수인 1개를 빼주게 된다.
마지막으로 표본분산의 기대치를 할 경우 모집단의 분산으로 유도가 되기 때문에 을 사용한다. 실제로 대신 로 나누었을 때 정확히 맞아 떨어지는것을 알 수 있다.
표본분포(sample dist) vs 표집분포(sampling dist)
- 표본분포 : 모집단을 대표할만한 표본을 추출하여 모집단의 속성을 추정
- 즉, 모집단을 대표할 수 있게 추출된 분포
- 표본에서 얻은 평균와 표준편차로 표기하며 통계량(statistic), 추정치(estimate)라 한다.
- 표집분포 : 어떠한 가정을 전제로 하여 이론적인 가상적 분포
- 표본의 크기가 n인 표본을 무한히 반복추출한 후 무한개의 표본들의 평균을 가지고 그린 분포
- 기각역과 채택역을 나타내준다.
- 모집단의 분포가 정규분포가 아니더라도 정규분포의 형태를 나타낸다.
표본평균이나 표본분산은 중요한 통계량이지만 확률분포마다 사용하는 모수가 다르므로 적절한 통계량이 달라지게 된다.
이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나는 최대가능도 추정법(MLE)이다.
가능도함수는 모수 를 따르는 분포가 를 관찰할 가능성을 뜻하며 확률로 해석하면 안된다.
데이터 집합 가 독립적 추출되었을 경우 로그가능도를 최적화한다.
log를 사용하여 곱을 덧셈으로 변환시켜줄 수 있다. 또한 0과 1사이를 곱하는 것보다 더하는 연산을 하게 되면 경사하강법을 수행시 연산량을 에서 으로 줄여준다.
경사하강법을 사용하므로 음의 로그가능도를 최적화하게 된다.
최대가능도 추정법을 이용해 기계학습 모델을 학습할 수 있다.
딥러닝 모델의 가중치를 라 표기했을 때 분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수 를 모델링한다.
원핫벡터로 표현한 정답레이블 을 관찰데이터로 이용하여 최적화 할 수 있다.