정보 이론
정보 이론에서는 메시지의 정보량을 확률로 측정한다고... 한다🤔
확률이 낮은 사건 일수록 더 많은 정보를, 반대의 경우에는 더 적은 정보를 전달한다.
어떤 사전이 일어날 확률을 추정 할 수 있다면 그 사전에 대한 정보량을 측정 할 수 있고,
이 정보량을 자기 정보(self-information)이라고 한다.
정보 엔트로피(Entropy)
자기 정보가 특정 사건의 정보량을 측정하는 반면, 엔트로피는 확률 분포의 무질서도 또는 불확실성을 측정한다.
- 이산 확률 분포 : H(x)=−∑i=1,knP(ei)log2P(ei)
- 연속 확률 분포 : H(x)=−∫RP(x)log2P(x)
교차 엔트로피(Cross Entropy)
서로 다른 두 확률 분포 사이의 교차 엔트로피는 아래와 같다.
H(P,Q)=−∑xP(x)log2Q(x)
단, 이때 두 확률 분포는 같은 확률변수에 대해 정의되어 있어야한다.
KL 다이버전스(KL Divergence)
교차 엔트로피를 다음과 같이 유도할 수 있다.
H(P,Q)=−∑xP(x)log2Q(x)
=−∑xP(x)log2P(x)+∑xP(x)log2P(x)−∑xP(x)log2Q(x)
=H(P)+∑xP(x)log2Q(x)P(x)
마지막 식의 두번째 항을 KL 다이버전스라고 하고, 아래와 같이 정의한다.
KL(P∣∣Q)=∑xP(x)log2Q(x)P(x)
KL 다이버전스는 두 확률 분포가 얼마나 다른지를 측정하며, P, Q가 같을때 0이된다.