엔트로피 - 정보량의 기댓값

Kiwoong Park·2024년 3월 8일

엔트로피

정의

어떤 사건이 일어날 확률이 100%다 라면, 즉 항상 일어나는 사건일 경우 우리는 어떤 것도 기대하지 않기 때문에 정보의 양이 매우 작다고 볼 수 있다. 반대로, 잘 일어날 것 같지 않는 사건에서는 빈번하게 일어나는 사건에서 보다 정보의 양이 많다고 볼 수 있다. 이런 개념을 가지고 정보의 양을 수치화 한다면 사건의 빈도(=화와 반비례의 관계를 가지도록 수식화 할 수 있다. 랜덤벡터 xx의 정보량 h(x)h(x)를 아래와 같이 정의한다.

h(x)=logp(x)h(x)=-log p(x)

여기서 p(x)p(x)xx의 확률밀도함수다. p(x)p(x) 값이 0에 가까워질수록, 즉 사건의 빈도수가 적어질수록 정보량은 많아지고 p(x)p(x)의 값이 커질수록, 즉 사건의 빈도수가 클수록 정보량은 적어진다.

엔트로피(entropy)는 정보량의 기댓값으로 정의하며 아래와 같다

H(p)=Exp(x)[logp(x)]=xp(x)logp(x)dxH(p)=E_{x\sim p(x)}[-logp(x)]=-\int_{x}p(x)logp(x)dx

예를 들어, x를 성인 남성의 키와 같은 스칼라 랜덤 변수라고 할 때 p(x)p(x)가 다음과 같이 평균이 μ\mu이고 분산이 σ2\sigma^2인 가우시안 분포함수라면

p(x)=1(2πσ2)12exp((xμ)22σ2)p(x)=\frac{1}{(2\pi \sigma^2)^{\frac{1}{2}}}exp(-\frac{(x-\mu)^2}{2\sigma^2})

엔트로피는 다음과 같이 된다.

H(p)=12(1+log(2πσ2))H(p)=\frac{1}{2}(1+log(2\pi\sigma^2))

이 경우 엔트로피는 분산에만 영향을 받으며 분산이 커질수록 증가함을 알 수 있다. 분산이 클수록 사건의 무작위성이 커지고 특정 사건의 발생 빈도수가 작아지기 때문에 정보량이 증가한다고 볼 수 있다.

교차 엔트로피(cross entropy)

확률밀도함수 q(x)q(x)의 정보량을 확률밀도함수 p(x)p(x)의 관점에서 기댓값으로 표현한 것을 p(x)p(x)q(x)q(x)의 교차 엔트로피(cross entropy)라고 하며 다음과 같이 정의한다.

H(p,q)=Exp(x)[logq(x)]=xp(x)logq(x)dxH(p, q) = E_{x\sim p(x)}[-logq(x)] \\ = -\int_{x}p(x)logq(x)dx

💡정보량의 과학적 개념은 '내가 아는 어떤 것의 총량'이 아니라 어떤 것의 가능한 대안의 수 또는 모든 경우의 수의 총량을 의미한다. 예를 들어 주사위를 던지면 6가지 숫자 중에서 하나가 나오므로 정보량은 6이다. 어떤 사람의 생일을 모르면 365개 혹은 366개의 가능성이 존재하기 때문에, 만약 그 사람의 생일을 안다면 나의 정보량은 366이다.

References
[1] 박성수. (2020). 수학으로 풀어보는 강화학습 원리와 알고리즘. 위키북스

profile
You matter, never give up

0개의 댓글