[딥러닝] Cross Entropy(교차 엔트로피)

이신우·2021년 7월 26일
0

정보 이론

정보 이론에서는 메시지의 정보량을 확률로 측정한다고... 한다🤔
확률이 낮은 사건 일수록 더 많은 정보를, 반대의 경우에는 더 적은 정보를 전달한다.

어떤 사전이 일어날 확률을 추정 할 수 있다면 그 사전에 대한 정보량을 측정 할 수 있고,
이 정보량을 자기 정보(self-information)이라고 한다.

정보 엔트로피(Entropy)

자기 정보가 특정 사건의 정보량을 측정하는 반면, 엔트로피는 확률 분포의 무질서도 또는 불확실성을 측정한다.

  • 이산 확률 분포 : H(x)=i=1,knP(ei)log2P(ei)H(x) = - \sum^n_{i=1,k}P(e_i)log_2P(e_i)
  • 연속 확률 분포 : H(x)=RP(x)log2P(x)H(x) = - \int_\mathbb{R}P(x)log_2P(x)

교차 엔트로피(Cross Entropy)

서로 다른 두 확률 분포 사이의 교차 엔트로피는 아래와 같다.

H(P,Q)=xP(x)log2Q(x)H(P, Q) = -\sum_xP(x)log_2Q(x)
단, 이때 두 확률 분포는 같은 확률변수에 대해 정의되어 있어야한다.

KL 다이버전스(KL Divergence)

교차 엔트로피를 다음과 같이 유도할 수 있다.

H(P,Q)=xP(x)log2Q(x)H(P, Q) = -\sum_xP(x)log_2Q(x)
=xP(x)log2P(x)+xP(x)log2P(x)xP(x)log2Q(x)= -\sum_xP(x)log_2P(x) + \sum_xP(x)log_2P(x) - \sum_xP(x)log_2Q(x)
=H(P)+xP(x)log2P(x)Q(x)= H(P) + \sum_xP(x)log_2\frac{P(x)}{Q(x)}

마지막 식의 두번째 항을 KL 다이버전스라고 하고, 아래와 같이 정의한다.

KL(PQ)=xP(x)log2P(x)Q(x)KL(P||Q) = \sum_xP(x)log_2\frac{P(x)}{Q(x)}

KL 다이버전스는 두 확률 분포가 얼마나 다른지를 측정하며, PP, QQ가 같을때 0이된다.

0개의 댓글