어떤 사건이 일어날 확률이 100%다 라면, 즉 항상 일어나는 사건일 경우 우리는 어떤 것도 기대하지 않기 때문에 정보의 양이 매우 작다고 볼 수 있다. 반대로, 잘 일어날 것 같지 않는 사건에서는 빈번하게 일어나는 사건에서 보다 정보의 양이 많다고 볼 수 있다. 이런 개념을 가지고 정보의 양을 수치화 한다면 사건의 빈도(=화와 반비례의 관계를 가지도록 수식화 할 수 있다. 랜덤벡터 의 정보량 를 아래와 같이 정의한다.
여기서 는 의 확률밀도함수다. 값이 0에 가까워질수록, 즉 사건의 빈도수가 적어질수록 정보량은 많아지고 의 값이 커질수록, 즉 사건의 빈도수가 클수록 정보량은 적어진다.
엔트로피(entropy)는 정보량의 기댓값으로 정의하며 아래와 같다
예를 들어, x를 성인 남성의 키와 같은 스칼라 랜덤 변수라고 할 때 가 다음과 같이 평균이 이고 분산이 인 가우시안 분포함수라면
엔트로피는 다음과 같이 된다.
이 경우 엔트로피는 분산에만 영향을 받으며 분산이 커질수록 증가함을 알 수 있다. 분산이 클수록 사건의 무작위성이 커지고 특정 사건의 발생 빈도수가 작아지기 때문에 정보량이 증가한다고 볼 수 있다.
확률밀도함수 의 정보량을 확률밀도함수 의 관점에서 기댓값으로 표현한 것을 와 의 교차 엔트로피(cross entropy)라고 하며 다음과 같이 정의한다.
💡정보량의 과학적 개념은 '내가 아는 어떤 것의 총량'이 아니라 어떤 것의 가능한 대안의 수 또는 모든 경우의 수의 총량을 의미한다. 예를 들어 주사위를 던지면 6가지 숫자 중에서 하나가 나오므로 정보량은 6이다. 어떤 사람의 생일을 모르면 365개 혹은 366개의 가능성이 존재하기 때문에, 만약 그 사람의 생일을 안다면 나의 정보량은 366이다.
References
[1] 박성수. (2020). 수학으로 풀어보는 강화학습 원리와 알고리즘. 위키북스