Entropy (엔트로피)

MostlyFor·2023년 9월 30일

머신러닝 & 딥러닝

목록 보기

7/13

엔트로피란 정보량의 가중평균이다.

정보량을 계산할 때 중요한 점은 뻔한 이야기일수록 정보량이 낮다는 것이다.

우리가 통신을 하려고 정보를 송신하고 있는데, 오늘 해가 떴다는 사실을 송신한다고 하자.

이런 당연한 이야기는 들어도 전혀 놀라지 않을, 즉 정보량이 없는 것이다.

반면, 오늘 해가 뜨지 않았다는 이야기는 정보량이 엄청 큰 사실이 된다.

즉, 정보량은 확률과 반비례한다.

정보량 : h(x) = -log_2p(x)

우리가 어떤 사실을 보고 송신한다고 가정해보자. 그 송신에는 평균적으로 얼마나 많은 정보량이 들어있을까?

해가 뜰 확률이 0.99999고 뜨지 않을 확률이 0.00001이라면, 우리가 이러한 사실을 보고 정보를 송신할 때의 평균 정보량은 다음과 같이 계산할 수 있을 것이다.

0.99999 *해가떴을때의정보량+ 0.00001 * 해가뜨지 않았을때의 정보량

즉, 우리가 어떠한 사실을 관찰하고 송신할 때의 평균 정보량은 다음과 같이 계산할 수 있다.

H[X] = -\sum_{k=1}^Kp(x_k)log_2p(x_k)

이 값을 우리는 엔트로피라고 한다. 즉, 엔트로피는 우리가 보내는 평균 정보량이다.

이를 다시 생각해보자. 만약 우리가 동전이 앞면이 나오거나 뒷면이 나오는 사건에 대해 결과를 송신한다고 해보자.

만약 동전이 균일하다면, 우리는 결과를 예측할 수 없다. 즉 우리는 결과로부터 얻는 정보가 많아지는 것이다.

이러한 관점에서 직관적으로 엔트로피, 즉 정보량의 가중평균이 최대가 되는 시점은 사건들이 일어날 확률이 균일할 때이다.

라그랑주 승수를 이용하면 위와 같은 직관이 증명된다고 한다.

우리가 어떤 사건에 대한 정보를 이진수로 인코딩하여 송신한다고 해보자.

이때, 그 사건에 대한 확률변수 X의 엔트로피는 우리가 최대한 압축해서 보냈을 때의 bits 수다. 즉, 정보 bits의 lower bound가 된다.

(물론 밑이 2인 로그로 계산한 엔트로피의 경우이다.)

참고자료
1.https://datascienceschool.net/02%20mathematics/10.01%20%EC%97%94%ED%8A%B8%EB%A1%9C%ED%94%BC.html
2.https://www.youtube.com/watch?v=Dc0PQlNQhGY