[AI Math] 통계학

hyunsooo·2022년 9월 23일
0

모수란?

  • 관찰하는 집단(모집단)의 특성(평균, 분산 ...)

  • 통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference)하는 것이 목표이다.

  • 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아내는 것은 불가능하며, 근사적으로 확률분포를 추정할 수 밖에 없다.

  • 예측모형의 목적은 분포를 정확하게 맞춘다기 보다 데이터와 추정 방법의 불확실성을 고려하여 위험을 최소화는 것이기 때문이다.

  • 데이터가 특정 확률분포를 따른다고 선험적으로(priori) 가정한 후 그 분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적(parametric) 방법론 이라고 한다.

  • 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면 비모수(non-parameteric) 방법론이라고 한다.

  • 주의할점은 비모수 방법론이라고 해서 모수가 없다가 아니라 모수가 무수히 많거나 변화하는 것을 의미한다.

확률분포 가정하기

  • 확률분포를 가정하는 방법은 우선 히스토그램을 통해 모양을 관찰한다.

  • 데이터가 2개의 값(0 또는 1)만 가지는 경우는 베르누이 분포

  • 데이터가 n개의 이산적인 값을 가지는 경우는 카테고리 분포, 다항분포

  • 데이터가 [0,1]사이에서 값을 가지는 경우는 베타분포

  • 데이터가 0 이상의 값을 가지는 경우는 감마분포, 로그정규분포 등

  • 데이터가 R\mathbb{R}전체에서 값을 가지는 경우는 정규분포, 라플라스분포 등

주의
기계적으로 확률분포를 가정해서는 안 되며, 데이터를 생성하는 원리를 먼저 고려하는 것이 원칙이다.
모수를 추정한 후 적절한 검정 방법론을 통해 검정과정이 필요하다.

데이터로 모수를 추정하기

  • 데이터의 확률분포를 가정했다면 모수를 추정할 수 있다.

  • 정규분포의 모수는 평균μ\mu과 분산σ2\sigma^2으로 이를 추정하는 통계량(statistic)은 아래와 같다.

표본평균:Xˉ=1Ni=1NXi표본평균 : \bar{X}=\frac{1}{N}\sum_{i=1}^NX_i\\
E[Xˉ]=μ\mathbb{E}[\bar{X}] = \mu
표본분산:S2=1N1i=1N(XiXˉ)2표본분산 : S^2=\frac{1}{N-1}\sum_{i=1}^N(X_i-\bar{X})^2\\
E[X2]=σ2\mathbb{E}[X^2] = \sigma^2
  • 표본분산에 산술평균을 취할때 N1N-1로 정의하는데 그 이유는 불편(unbiased) 추정량을 구하기 위해서다.

  • 표본의 분산은 모집단의 분산을 Underestimate(과소평가)하여 (표본분산 < 모집단의 분산)과 같은 상태가 되기 때문에 이를 보정하기 위해 N1N-1을 취함으로 전체 표본분산을 크게 만든다.

  • 모평균을 추정하기 위해 표본평균을 구하고 이 표본평균을 기준으로 편차를 계산하게 되면 실제 모평균을 과소평가하게 된다.

  • 두 번째로 샘플링한 분산에서는 자유도가 N1N-1이기 때문이다.

  • 자유도란 파라미터 예측에 필요한 독립적인 형태의 정보의 수를 의미한다. 즉 파라미터를 예측하기 위해 중간과정에 사용되는 파라미터의 수를 전체 독립적인 정보의 수에서 빼줘야 한다. 이런 정의를 기반으로 표본분산은 N1N-1의 자유도를 가지게 되는데 그 이유는 중간 과정에서 표본평균을 구하고 표본분산을 구하기 때문에 해당 파라미터 개수인 1개를 빼주게 된다.

  • 마지막으로 표본분산의 기대치를 할 경우 모집단의 분산으로 유도가 되기 때문에 N1N-1을 사용한다. 실제로 NN대신 N1N-1로 나누었을 때 정확히 맞아 떨어지는것을 알 수 있다.


  • 통계량의 확률분포를 표집분포(sampling distribution)라 부르며, 특히 표본평균의 표집분포는 NN이 커질수록 정규분포 N(μ,σ2/N)N(\mu, \sigma^2/N)를 따른다. 이를 중심극한정리라 부르며 모집단의 분포가 정규분포를 따르지 않아도 성립한다.

표본분포(sample dist) vs 표집분포(sampling dist)

  • 표본분포 : 모집단을 대표할만한 표본을 추출하여 모집단의 속성을 추정
  • 즉, 모집단을 대표할 수 있게 추출된 분포
  • 표본에서 얻은 평균Xˉ\bar{X}와 표준편차ss로 표기하며 통계량(statistic), 추정치(estimate)라 한다.

  • 표집분포 : 어떠한 가정을 전제로 하여 이론적인 가상적 분포
  • 표본의 크기가 n인 표본을 무한히 반복추출한 후 무한개의 표본들의 평균을 가지고 그린 분포
  • 기각역과 채택역을 나타내준다.
  • 모집단의 분포가 정규분포가 아니더라도 정규분포의 형태를 나타낸다.

Maximum Likelihood Estimation(MLE)

  • 표본평균이나 표본분산은 중요한 통계량이지만 확률분포마다 사용하는 모수가 다르므로 적절한 통계량이 달라지게 된다.

  • 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나는 최대가능도 추정법(MLE)이다.

θ^MLE=argmaxθL(θ;x)=argmaxθP(xθ)\hat\theta_{MLE} = argmax_{\theta}L(\theta;x) = argmax_{\theta}P(x|\theta)
  • 가능도함수는 모수 θ\theta를 따르는 분포가 xx를 관찰할 가능성을 뜻하며 확률로 해석하면 안된다.

  • 데이터 집합 XX가 독립적 추출되었을 경우 로그가능도를 최적화한다.

L(θ;X)=Πi=1nP(xiθ)logL(θ;X)=i=1nlogP(xiθ)L(\theta;X) = \Pi_{i=1}^nP(x_i|\theta) \rightarrow logL(\theta;X) = \sum_{i=1}^nlogP(x_i|\theta)
  • log를 사용하여 곱을 덧셈으로 변환시켜줄 수 있다. 또한 0과 1사이를 곱하는 것보다 더하는 연산을 하게 되면 경사하강법을 수행시 연산량을 O(n2)O(n^2)에서 O(n)O(n)으로 줄여준다.

  • 경사하강법을 사용하므로 음의 로그가능도를 최적화하게 된다.


  • 카테고리 분포(x;p1,...,pd)(x;p_1,...,p_d)를 따르는 확률변수 XX로부터 독립표본인 {x1,...,xn}\{x_1,...,x_n\}을 얻었을 때 최대가능도 추정법을 이용하여 모수를 추정하기
θ^MLE=argmaxP1,...,PdlogP(xiθ)=argmaxP1,...,Pdlog(Πi=1nΠk=1dpkxi,k)\hat{\theta}_{MLE} = argmax_{P_1,...,P_d}logP(x_i|\theta) = argmax_{P_1,...,P_d}log(\Pi_{i=1}^n\Pi_{k=1}^dp_k^{x_{i,k}})
  • 카테고리 분포에서의 모수 ppk=1dpk=1\sum_{k=1}^dp_k=1을 만족해야한다.
log(Πi=1nΠk=1dpkxi,k)=k=1d(i=1nxi,k)logpklog(\Pi_{i=1}^n\Pi_{k=1}^dp_k^{x_{i,k}}) = \sum_{k=1}^d(\sum_{i=1}^nx_{i,k})logp_k
  • xi,kx_{i,k}는 0아니면 1이기 때문에 주어진 데이터에서 k값이 1인 값의 개수를 구하는 것과 같다. nk=i=1nxi,kn_k=\sum_{i=1}^nx_{i,k}
log(Πi=1nΠk=1dpkxi,k)=k=1dnklogpklog(\Pi_{i=1}^n\Pi_{k=1}^dp_k^{x_{i,k}}) = \sum_{k=1}^dn_klogp_k
  • 카테고리 분포의 MLE는 경우의 수를 세어 비율을 구하는것과 같다.

딥러닝에서 최대가능도 추정법

  • 최대가능도 추정법을 이용해 기계학습 모델을 학습할 수 있다.

  • 딥러닝 모델의 가중치를 θ=(W(1),...,W(L))\theta = (W^{(1)},...,W^{(L)})라 표기했을 때 분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수 (p1,...,pk)(p_1,...,p_k)를 모델링한다.

  • 원핫벡터로 표현한 정답레이블 y=(y1,...,yK)y=(y_1, ..., y_K)을 관찰데이터로 이용하여 최적화 할 수 있다.

θ^MLE=argmaxθ1ni=1nk=1Kyi,klog(MLPθ(xi)k)\hat{\theta}_{MLE} = argmax_{\theta}\frac{1}{n} \sum_{i=1}^n\sum_{k=1}^Ky_{i,k}log(MLP_{\theta}(x_i)_k)
  • 데이터공간에 두 개의 확률분포 P(x),Q(x)P(x), Q(x)가 있을 경우 두 확률분포 사이의 거리를 계산할 때 아래와 같은 함수를 사용한다.
    • 총변동 거리(Total Variation Distance, TVD)
    • 쿨백-라이블러 발산(Kullback-Leibler Divergence, KL)
    • 바슈타인 거리 (Wasserstein Distance)
  • 분류 문제에서 정답레이블을 PP, 모델 예측을 QQ라 두면 최대가능도 추정법은 쿨백-라이블러 발산을 최소화 하는 것과 같다.
profile
지식 공유

0개의 댓글