통계학 맛보기

pseeej·2021년 8월 6일
0

AI_Mathematics

목록 보기
6/9
post-thumbnail

모수?

  • 통계적 모델링은 적절한 가정 위에서 확률분포를 추정(inference)하는 것이 목표
  • 유한한 개수의 데이터에서 관측하여 정확하게 알아내는 것은 불가능하므로, 근사적으로 확률분포를 추정해야
  • 데이터가 특정 확률분포를 따른다고 선험적으로(a priori) 가정한 후, 그 분포를 결정하는 모수(parameter)를 추정하는 방법을 모수적(parametric) 방법론
  • 특정 확률분포를 가정하지 않고, 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌면, 또는 모수의 개수가 무한할 때 비모수(noparametric) 방법론

확률분포 사용 예시

  • 기계적으로 확률분포를 가정해선 안 되며, 데이터를 생성하는 원리를 먼저 고려해야
  • 데이터가 2개의 값만 가지는 경우 : 베르누이 분포
  • 데이터가 N개의 이산적인 값을 가지는 경우 : 카테고리 분포
  • 데이터가 [0,1]사이에서 값을 가지는 경우 : 베타분포
  • 데이터가 0 이상의 값을 가지는 경우 : 감마분포, 로그정규분포 등
  • 데이터가 실수 전체에서 값을 가지는 경우 : 정규분포, 라플라스 분포 등

데이터로 모수 추정하기

  • 정규분포의 모수는 평균 μ과 분산 σ².
  • 통계량의 확률분포를 표집분포(sampling distribution). 표집분포는 N이 커질수록 정규분포 N(μ, σ²/N)을 따름 : 이를 중심극한정리(Central Limit Theorem)

최대가능도 추정법

  • 표본평균과 표본분산은 중요한 통계량이나, 확률분포마다 사용하는 모수가 다르므로 적절한 통계량이 달라지게 됨.
  • 최대가능도 추정법(maximum likelihood estimation, MLE)를 통해 이론적으로 가장 가능성이 높은 모수를 추정 가능
  • 데이터 집합 X가 독립적으로 추출되었을 경우 로그가능도 최적화

왜 로그가능도를 사용하는가?

  • 로그가능도를 최적화하는 모수 θ가능도를 최적화하는 MLE
  • 데이터의 숫자가 수억 단위가 된다면, 연산 오차때문에 컴퓨터의 정확도로 가능도 계산 불가
  • 로그가능도를 이용함으로써 곱셈을 덧셈으로 변환 가능 -> 컴퓨터로의 연산 가능
  • 연산량 O(n²)에서 O(n)으로 줄어듦
  • 대개의 손실함수의 경우, 경사하강법을 사용하므로, 음의 로그가능도(negative log-likelihood)를 최적화

MLE 추정법 예제

정규분포

  • 정규분포를 따르는 확률변수 X로부터 독립적인 표본 {x₁, x₂, ..., x_n}을 얻었을 때 최대가능도 추정법을 이용하여 모수 추정하면

카테고리 분포

  • 카테고리 분포 Multinoulli(x;p₁, p₂, ..., p_d)를 따르는 확률변수 X로부터 독립적인 표본 {x₁, x₂, ..., x_n}을 얻었을 때 최대가능도 추정법을 이용하여 모수 추정하면

딥러닝에서 최대가능도 추정법

  • 딥러닝 모델의 가중치를 θ = (W^(1), ..., W^(L))이라 표기했을 때, 분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수(p₁, p₂, ..., p_k)를 모델링
  • 원핫벡터로 표현한 정답레이블 y를 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그가능도 최적화 가능
profile
세진니의 눈물 가득 블로그

0개의 댓글