[U] Week 1 - 확률론

JaeJun Lee ·2022년 9월 22일
0

부스트캠프 AI Tech

목록 보기
5/30

확률론

딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있다.
기계학습에서 사용되는 손실함수(loss function)들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도하게 된다.

  • 예측이 틀릴 위험을 최소화하도록 데이터를 학습하는 원리는 통계적 기계학습의 기본 원리이다.

회귀 분석에서 손실함수로 사용되는 L2-norm은 예측오차의 분산을 가장 최소화하는 방향으로 학습하도록 유도한다.

분류 문제에서 사용되는 교차엔트로피(cross-entropy)는 모델 예측의 불확실성을 최소화하는 방향으로 학습하도록 유도한다.

  • 엔트로피(entropy): 정보를 표현하는데 필요한 최소 평균 자원량.

확률분포

데이터공간을 X×YX \times Y라 표기하고 d는 데이터공간에서 데이터를 추출하는 분포이다.
확률변수는 확률분포에 따라 이산형(discrete)과 연속형(continuous) 확률변수로 구분하게 된다.

  • 데이터공간 X×YX \times Y에 의해 결정되는 것이 아니라 확률분포(D)(D)에 의해 결정된다.

이산형 확률변수는 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해서 모델링한다.
연속형 확률변수는 데이터 공간에 정의된 확률변수의 밀도(density) 위에서의 적분을 통해 모델링한다.

  • 밀도는 누적확률분포의 변화율을 모델링하여 확률로 해석하면 안된다.
  • 이산형, 연속형 이외에도 다른 확률분포도 존재한다.

결합분포 P(x,y)P(x,y)DD를 모델링한다.

  • P(x)P(x)는 입력 xx에 대한 주변확률분포로 yy에 대한 정보를 주진 않는다. (P(y)P(y)일 경우 가능하다)
  • 주변확률분포 P(x)P(x)는 결합분포 P(x,y)P(x,y)에서 유도 가능하다.
  • 조건부확률분포 P(xy)P(x|y)는 데이터 공간에서 입력 xx와 출력 yy 사이의 관계를 모델링한다.
    • P(xy)P(x|y)는 특정 클래스가 주어진 조건에서 데이터의 확률분포를 보여준다.
    • 조건부 확률 P(yx)P(y|x)는 입력변수 xx에 대해 정답이 yy일 확률을 의미한다.
    • 연속확률분포의 경우 P(yx)P(y|x)는 확률이 아니고 밀도록 해석한다는 것을 주의해야한다.

로지스틱 회귀에서 사용했던 선형모델과 소프트맥스 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용된다.
분류 문제에서 소프트맥스는 데이터 xx로부터 추출된 특징패턴과 가중치행렬 WW을 통해 조건부확률 P(yx)P(y|x)를 계산한다.
회귀 문제의 경우 보통 연속확률변수를 다루기 때문에 밀도를 다뤄 조건부기대값 E[yx]E[y|x]을 추정한다.

  • 통계적 모형에서 원하고자 하는 목적에 따라 사용되는 통계 추정량이 달라질 수 있다.

딥러닝은 다층신경망을 사용하여 데이터로부터 특징패턴을 추출한다.

  • 특징패턴을 학습하기 위해 어떤 손실함수를 사용할지는 기계학습 문제와 모델에 의해 결정된다.

기대값

확률분포가 주어지면 데이터를 분석하는 데 사용 가능한 여러 종류의 통계적 범함수(statistical function)을 계산할 수 있다.
기대값(expectation)은 데이터를 대표하는 통계량이면서 동시에 확률분포를 통해 다른 통계적 범함수를 계산하는데 사용된다.

  • 연속확률분포의 경우면 적분, 이산확률분포의 경우면 급수를 사용한다.
  • 기대값을 이용해 분산, 첨도, 공분산 등 여러 통계량을 계산할 수 있다.

몬테카를로 샘플링

기계학습의 많은 문제들은 확률분포를 명시적으로 모를 때가 대부분이다.
확률분포를 모를 때 데이터를 이용하여 기대값을 계산하려면 몬테카를로(Monte Carlo) 샘플링 방법을 사용해야 한다.

  • 몬테카를로는 이산형이든 연속형이든 상관없이 성립한다.
  • 샘플링하는 분포에서 독립적으로 항상 샘플링을 해줘야 몬테카를로 샘플링이 적용된다.

몬테카를로 샘플링은 독립추출만 보장된다면 대수의 법칙(law of large number)에 의해 수렴성을 보장한다.

Reference

0개의 댓글