210906 FUNDAMENTAL 32. 정보이론

문소정·2021년 9월 6일
0

1. 정보 이론(information theory)

  • 추상적인 '정보'라는 개념을 정량화하고 정보의 저장과 통신을 연구하는 분야

  • 정량적으로 표현하기 위한 3가지 조건

    • 일어날 가능성이 높은 사건은 정보량이 낮고, 반드시 일어나는 사건에는 정보가 없는 것이나 마찬가지입니다.
    • 일어날 가능성이 낮은 사건은 정보량이 높습니다.
    • 두 개의 독립적인 사건이 있을 때, 전체 정보량은 각각의 정보량을 더한 것과 같습니다.
  • 정보량(information content) : 한 가지 사건에 대한 값
    수식으로 표현하면, 사건 xx가 일어날 확륭을 P(X=x)P(X = x)라고 할 때,
    사건의 정보량 I(x)I(x)I(x)=logbP(x)I(x) = -log_{b}P(x)

    • bb는 주로 2, ee, 10 값을 사용
      • b=2b=2 일때, I(x)I(x)는 정보를 나타내기 위한 필요한 bit의 수
      • b=eb=e 일때 그래프

2. Entropy

  • 특정 확률분포를 따르는 사건들의 정보량 기댓값 = 불확실성 정도
  • 이산 확률 변수의 entropy
    이산 확률 변수 Xx1,x2,,xnX \in {x_1, x_2, \dots, x_n} 일때 엔트로피H(X)H(X)
    H(X)=EXP[I(x)]=i=1npilogpi(pi:=P(X=xi)H(X) = E_{X \sim P}[I(x)] = -\displaystyle\sum_{i=1}^{n}p_{i} \log p_i \qquad (p_i := P(X=x_i)
    • 여러가지 색의 공이 있는 주머니 vs 단색공 주머니
    • 10개의 색 공의 비율 1:9 vs 6:4
      • 사건들의 확률이 균등할수록 엔트로피값은 증가
    • ex) 동전과 같이 앞면이 나올 확률 0.5, 뒷면이 나올 확률 0.5일때, 균등 분포(uniform distribution)) 엔트로피값이 최대
      ⇨ 즉, 앞면이 나올 확률 0.9인 동전을 던질 때보다 0.5확률 일때가 가장 예측하기 어렵다. (= 불확실 성이 크다)라고 해석
  • 연속 확률 변수의 entropy = 미분 엔트로피(differential entropy)
    확률 변수 XX의 확률 밀도 함수가 p(x)p(x)일 때 엔트로피h(X)h(X)h(X)=p(x)logp(x)dxh(X) = - \int p(x)logp(x)dx

3. Kullback Leibler Divergence

  • 머신러닝의 목표 : 새로운 입력 데이터가 들어와도 예측이 잘 되도록, 모델의 확률 분포를 데이터의 실제 확률 분포에 가깝게 만드는 것

  • 머신러닝 모델의 종류

    • 우선 결정 모델(discriminative model) : 데이터의 실제 분포를 모델링 하지 않고 결정 경계(decision boundary)만을 학습합
      • ex) 모델의 결과값이 0보다 작으면 1번 클래스, 크다면 2번 클래스로 분류
    • 생성 모델(generative model) : 데이터와 모델로부터 도출할 수 있는 여러 확률 분포와 베이즈 이론을 이용해서 데이터의 실제 분포를 간접적으로 모델링
      • 두 확률 분포의 차이를 나타내는 지표 : 쿨백-라이블러 발산(Kullback-Leibler divergence, KL divergence) 등
  • 두 확률 분포의 KL divergence란

    • 데이터의 실제 확률 분포 P(x)P(x), 모델의 학습으로 도출된 확률분포Q(x)Q(x)일 때, P(x)P(x)를 기준으로 계산된 Q(x)Q(x)의 평균정보량과 P(x)P(x)의 평균 정보량의 차이
    • 이산 확률 변수
    • 연속 확률 변수
  • 특성

  • 두 확률 분포의 차이를 줄여야 하므로 DKL(PQ)D_{KL}(P||Q)를 최소화하는 방향으로 모델을 학습

    • P(x)P(x) 빨간색 : 실제 분포, 고정 값
    • Q(x)Q(x) 파란색 : 바꿀 수 있는 부분. KL divergence의 최소화 = Q(x)를 최소화하는 문제 = $P(x)에 대한 Q(x)Q(x)의 교차 엔트로피의 최소화
  • 교차 엔트로피(cross entropy)

    • P(x)P(x)에 대한 Q(x)Q(x)의 교차 엔트로피
    • 관계식

4. Cross Entropy Loss

  • 손실 함수(loss function) : 머신러닝에서 모델이 나타내는 확률 분포와 데이터가 따르는 실제 확률 분포 사이의 차이를 나타내는 함수

(정리 안됨)

  • Cross Entropy와 Likelihood의 관계
    모델 파라미터를 θ\theta 로 놓으면, 모델을 표현하는 확률분포 Q(yX,θ)Q(y|X, \theta), 실제 데이터 분포 %P(y|X)를 나타낸다.
    • Q(yX,θ)Q(y|X, \theta)는 예측값의 분포를 나타내고 모델의 likelihood와 같다.
    • 고정값 : X와 y(데이터셋에 의해 결정되는 값이기 때문)
    • 바꿀 수 있는 부분 : $-\log Q(y|X, \theta)

∴ cross entropy 최소화 하는 파라미터 값 구하기 = negative log likelihood를 최소화하는 파라미터 값 구하기

5. Decision Tree와 Entropy

  • 의사결정 트리
    • 엔트로피 감소 ⇨ 모델 내부에 정보 이득(Information Gain)
    • 엔트로피 증가 ⇨ 정보 손실량
  • IG(S,F)IG(S,F)FF라는 분류 기준 채택을 통해 얻은 정보 이득의 양

0개의 댓글