28. 정보이론 톺아보기

j_hyun11·2022년 2월 18일
0

1. Information Content

  • 정보이론 : 추상적인 '정보'라는 개념을 정량화하고 정보의 저장과 통신을 연구하는 분야

정보를 정량적으로 표현하기 위해 필요한 세 가지 조건

  1. 일어날 가능성이 높은 사건은 정보량이 낮고, 반드시 일어나는 사건에는 정보가 없는 것이나 마찬가지이다.
  2. 일어날 가능성이 낮은 사건은 정보량이 높다.
  3. 두 개의 독립적인 사건이 있을 때, 전체 정보량은 각각의 정보량을 더한 것과 같다.
  • Goodfellow, Bengio, Courville의 책 Deep Learning

2. Entropy

  • 특정 확률분포를 따르는 사건들의 정보량 기댓값
  • 확률 변수가 가질 수 있는 값의 가짓수가 같을 때 사건들의 확률이 균등할수록 엔트로피 값은 증가
  • 앞면과 뒷면의 확률이 같은 동전을 던질 때 결과를 예측하기가 더 어렵기 때문에 불확실성이 커서 엔트로피 값이 최대가 됨

For Discrete Random Variables

  • X가 연속적인 값을 갖는 연속 확률 변수일 때는 유한합 대신 적분의 형태로 정의
  • 연속 확률 변수의 엔트로피를 이산 확률 변수와 구분하여 미분 엔트로피(differential entropy)라고 부르기도 함

3. Kullback Leibler Divergence

  • 결정 모델(discriminative model) : 데이터의 실제 분포를 모델링 하지 않고 결정 경계(decision boundary)만을 학습
  • 생성 모델(generative model) : 데이터와 모델로부터 도출할 수 있는 여러 확률 분포와 베이즈 이론을 이용해서 데이터의 실제 분포를 간접적으로 모델링
  • 쿨백-라이블러 발산(Kullback-Leibler divergence, KL divergence) : 생성 모델을 학습시킬 때는 두 확률 분포의 차이를 나타내는 지표

4. Cross Entropy Loss

  • 정답셋의 확률분포 P와 우리 모델의 추론 결과의 확률분포 Q 의 차이 KL divergence를 최소화하는 것
  • 즉, 모델의 추론 결과가 정답셋과 최대한 유사하게 하는 것과 교차 엔트로피(Cross Entropy)를 최소화하는 것이 수학적으로 같다
  • 결론: KL divergence를 최소화하는 것이 cross entropy를 최소화하는 것과 같다
  • cross entropy도 손실 함수의 한 종류

손실 함수(loss function)

  • 머신러닝에서 모델이 나타내는 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함
  • 이 차이를 최소화시키는 게 중요한 목적
  • 모델의 확률 분포는 파라미터에 따라 달라지기 때문에 손실 함수 역시 파라미터에 의해 결정됨

0개의 댓글