20211108
추상적인 정보 개념을 정량화, 정보 저장과 통신 연구
I(x)=−logbP(x)

출처: AIFFEL FUNDAMENTALS_SSAC2 25. 정보이론 톺아보기
-
일어날 가능성이 높은 사건일수록 정보량이 낮다.
-
일어날 가능성이 낮은 사건일수록 정보량이 높다.
-
전체 정보량 = 두 개의 독립 사건 정보량의 합
-
−logbP(x) 함수가 항상 양수인 이유는 확률의 범위가 [0, 1] 이기 때문이다.
2. 엔트로피(entropy)
특정 확률분포를 따르는 사건들의 정보량 기댓값.
무질서도 또는 불확실성과 비슷하다.
이산확률변수(discrete random variable) 경우
H(X)=EX∼P[I(x)]=−i=1∑npilogpi
(pi:=P(X=xi))

출처: AIFFEL FUNDAMENTALS_SSAC2 25. 정보이론 톺아보기
연속 확률 변수(Continuous Random Variables) 경우
- 미분 엔트로피(differential entropy)라고도 함
h(X)=−∫p(x)logp(x)dx
3. 쿨백-라이블러 발산(Kullback-Leibler divergence, KL divergence)
생성 모델을 학습시킬 때 두 확률 분포의 차이를 나타내는 지표.
이산확률변수(discrete random variable) 경우
DKL(P∣∣Q)=EX∼P[−logQ(x)]−EX∼P[−logP(x)]
=∑P(x)log(Q(x)P(x))
위 식이 왜 저렇게 되는지 몰라서 설명듣고 적어봤다.
급하게 적어서 글씨가 너무 더럽네 😅

연속 확률 변수(Continuous Random Variables) 경우
DKL(P∣∣Q)=∫P(x)log(Q(x)P(x))dx
KL divergence의 특성
-
DKL(P∣∣Q)≥0
-
DKL(P∣∣Q)=0 if and only if P=Q
-
non-symmetric: DKL(P∣∣Q)=DKL(Q∣∣P)
-ML에서는 DKL(P∣∣Q) 최소화 방향으로 모델 학습
- P(x)는 실제 값이라 변경 불가능 → $Q(x)를 최소화 하여 KL divergence를 최소화 하여야 한다.
교차 엔트로피(cross entropy)
P(x)를 기준으로 계산한 Q(x)의 엔트로피
H(P,Q)=−EX∼P[logQ(x)]=−∑P(x)logQ(x)
엔트로피, 교차 엔트로피, KL divergence의 관계

출처: AIFFEL FUNDAMENTALS_SSAC2 25. 정보이론 톺아보기
H(P,Q)=H(P)+DKL(P∣∣Q)
4. Cross Entropy Loss
예를 들어 3개의 클래스가 c1,c2,c3인 분류 문제가 있다.
softmax(input)의 값(출력값)이 0.2,0.7,0.1이라고 가정해보자.
- 결과는 하기와 같이 나타낼 수 있다.
Q(X=c1)=0.2
Q(X=c2)=0.7
Q(X=c3)=0.1
P(X=c1)=0
P(X=c2)=1
P(X=c3)=0
- cross entropy로 P(x),Q(x) 차이 구하기
H(P,Q)=−∑P(x)logQ(x)
=−(0⋅log0.2+1⋅log0.7+0⋅log0.1)
=−log0.7≈0.357
- cross entropy로 P(x),Q(x) 차이를 구하면 계산이 간단하다.
Cross Entropy와 Likelihood
모델의 파라미터를 θ라고 해보자.
-
Q(y∣X,θ): 모델이 표현한 확률 분포 (likelihood와 같음)
-
P(y∣X): 데이터의 실제 분포
-
cross entropy 최소화 파라미터 구하기
= negative log likelihood 최소화 파라미터 구하기
H(P,Q)=−∑P(y∣X)logQ(y∣X,θ)
=∑P(y∣X)(−logQ(y∣X,θ))
5. Decision Tree와 Entropy
의사결정나무(Decision Tree)
엔트로피가 감소하면 그 만큼 정보 이득(Information Gain, IG)을 얻는다!
IG(S,F)=e(S)−f∈F∑∣S∣∣Sf∣e(Sf)
-
S: 전체 사건의 집합
-
F: 분류 기준으로 고려되는 속성(feature)의 집합
-
f∈F : f는 F 에 속하는 속성
-
Sf: f 속성을 가진 S의 부분집합
-
∣X∣ : 집합 X의 크기(원소의 개수)
-
e(X) : X라는 사건 집합이 지닌 엔트로피
참고 자료
Deep Learning
확률과 확률 변수
초보를 위한 정보이론 안내서 - KL divergence 쉽게 보기
블로그 정리 화이팅입니다!