[딥러닝] Cross Entropy(교차 엔트로피)

이신우·2021년 7월 26일

정보 이론

정보 이론에서는 메시지의 정보량을 확률로 측정한다고... 한다🤔
확률이 낮은 사건 일수록 더 많은 정보를, 반대의 경우에는 더 적은 정보를 전달한다.

어떤 사전이 일어날 확률을 추정 할 수 있다면 그 사전에 대한 정보량을 측정 할 수 있고,
이 정보량을 자기 정보(self-information)이라고 한다.

자기 정보가 특정 사건의 정보량을 측정하는 반면, 엔트로피는 확률 분포의 무질서도 또는 불확실성을 측정한다.

이산 확률 분포 : $H(x) = - \sum^n_{i=1,k}P(e_i)log_2P(e_i)$

연속 확률 분포 : $H(x) = - \int_\mathbb{R}P(x)log_2P(x)$

서로 다른 두 확률 분포 사이의 교차 엔트로피는 아래와 같다.

$H(P, Q) = -\sum_xP(x)log_2Q(x)$
단, 이때 두 확률 분포는 같은 확률변수에 대해 정의되어 있어야한다.

교차 엔트로피를 다음과 같이 유도할 수 있다.

$H(P, Q) = -\sum_xP(x)log_2Q(x)$
$= -\sum_xP(x)log_2P(x) + \sum_xP(x)log_2P(x) - \sum_xP(x)log_2Q(x)$
$= H(P) + \sum_xP(x)log_2\frac{P(x)}{Q(x)}$

마지막 식의 두번째 항을 KL 다이버전스라고 하고, 아래와 같이 정의한다.

$KL(P||Q) = \sum_xP(x)log_2\frac{P(x)}{Q(x)}$

KL 다이버전스는 두 확률 분포가 얼마나 다른지를 측정하며, $P$ , $Q$ 가 같을때 0이된다.