KL -Divergence(KullBack-Libler Divergence)
KL-Divergence란 두 확률분포간의 정보량 차이를 측정하는데 사용되는 개념이다.

해당 KL발산의 공식은 다음과 같다.
DKL(P∣∣Q)=∑P(x)logQ(x)P(x)
=∑P(x)log(P(x)−Q(x))=−∑P(x)log(Q(x)−P(x))
따라서
=−∑P(x)logQ(x)−(−∑P(x)logP(x))
와 같이 정리할 수 있는데, CrossEntropy−기준Entropy의 식 임을 알 수 있다.
다시 말하면, Cross Entropy와 마찬가지로 두 확률 분포의 차이를 보여주는 척도이지만,
Cross Entropy에서 기준 분포의 Entropy를 제거,
즉, 두 분포 사이에서 기존 분포의 불확실성을 제거함으로서 두 분포가 얼마나 다른 정보를 갖고 있는지를 순수하게 측정하는 방법이다.
성질
1) DKL(P∣∣Q)=DKL(Q∣∣P)
2) DKL (0,∞)
기준분포가 무엇인지에 따라서 DKL값이 달라지므로 어떤 분포를 기준 분포로 설정할지 고려해야 한다.
이에 따라 보완척도 Jensen-Shannon Divergence가 나왔으나... 잘 안쓰이는 듯
수식은 다음과 같다.
DKL(P∣∣Q)=∑P(x)logQ(x)P(x),
DKL(Q∣∣P)=∑Q(x)logP(x)Q(x),
JSD=2DKL(P∣∣Q)+DKL(Q∣∣P)
가우시안 단변량/ 다변량 변환 공식
두 확률분포 P,Q가 각각 가우시안 분포를 따르는 단변량/ 다변량 확률분포로 알려져 있다면 다음과 같은 식으로 변환할 수 있다.
1) 단변량 Gaussian
P=N(μp,σp)와 Q=N(μq,σq)
DKL(P∣∣Q)=logσpσq+2σq2σp2+(μp−uq)2−21
2) 다변량 Gaussian
P=N(μp,Σp)와 Q=N(μq,Σq)
DKL(P∣∣Q)=qp[log∣Σp∣∣Σq∣−k+tr(Σq−1Σp)+(μq−μp)TΣq−1(μq−μp)]
설명
각 항의 의미
log∣Σp∣∣Σq∣: 공분산 행렬의 행렬식 비율의 로그
∣Σ∣는 공분산 행렬의 행렬식(determinant)
k: 차원 수
tr(Σq−1Σp): 행렬의 대각합(trace)
tr(A)=∑i=1dAii
(μq−μp)TΣq−1(μq−μp): 평균 벡터 차이의 마할라노비스 거리 제곱
마할라 노비스 거리란?
각 차원을 동등하게 생각하게 생각하는 유클리드 거리와 다르게 마할라 노비스 거리는 데이터의 분산과 상관관계를 고려하여 다음과 같이 나타낸다
DM(x,y)=(x−y)TΣ−1(x−y)