정보 엔트로피(Information Entropy)

김협·2024년 7월 17일

본 게시글 중 정보량 파트에 대한 서술은 아래 링크를 참고하여 재구성하였습니다.

정보 엔트로피(information entropy) - 공돌이의 수학정리노트 (Angelo's Math Notes)

정보량

통계학에서 “정보량이 많다”

= 깜짝 놀랄만한 내용이다

i.e., 확률이 낮은 사건일 수록 정보량은 높다. (놀랄 만한 일들은 거의 일어나지 않을 일들이기 때문)

정보량의 수식적 표현

\text{Info} \propto \frac{1}{P(X)}

Discrete r.v. $X$ 에 대해,

I(x)=-\log_b(P(X))

로그의 밑 $b$ 는 응용 분야에 따라 다르게 쓸 수 있다.

보통 2, $e$ , 10 중 하나를 사용 (각각을 사용했을 때의 정보량 단위는 bit, nit, dit)
정보량의 정의에 $\log$ 가 붙은 이유
정보에 대한 아래의 개념들을 만족시킬 수 있는 수식이어야 하기 때문
1. 확률값에 반비례할 것
2. 두 사건의 정보량을 합치면, 각 사건의 정보량을 합친 것과 같을 것

Entropy: 평균 정보량

열역학에서 주로 쓰이는 엔트로피 개념과 연결하려 애쓰지 말자

Sample space가 $\{x_1, x_2, ..., x_n \}$ 인 Discrete r.v. $X$ 가 있다면, 정보 엔트로피는 아래와 같다.

H(X)=E[I(X)]=-\sum_{i=1}^nP(x_i)\log_b(P(x_i))

Entropy 이해를 돕기 위한 예시

위의 Entropy 식이 왜 정보량의 기댓값을 의미하는지 의아할 때 읽어보자.

주사위 놀이를 하는데, 1부터 6까지의 주사위 눈이 나왔을 때 각각 100원부터 600원까지를 받는다고 생각해보자.

이 때의 기댓값은 다음과 같을 것이다.

\frac{1}{6}\times 100 + \frac{1}{6}\times 200 + \cdots+\frac{1}{6}\times 600

=\sum_{i=1}^{6}P(x_i)M(x_i)

여기서 $M(x_i)$ 는 $x_i$ 라는 사건 발생에 대해 받는 돈 (100원, 200원,…, 600원)이라고 생각하자

즉, 기댓값의 정의는 일어날 수 있는 사건에 대한 확률 × 이벤트 값을 모두 합친 것

따라서, 정보 엔트로피는 모든 일어날 수 있는 사건에 대한 확률 × 정보량 값을 모두 합친 것이므로,

H(x)=\sum_{i=1}^{n}P(x_i)(-\log_b(P(x_i)))

위 식을 계산하여 얻을 수 있는 값이 곧 정보 엔트로피이다.

Information Gain (정보 이득)

Decision Tree에서 Entropy를 계산 후, 어떤 노드를 선택하는 것이 옳은지 따져볼 때 사용하는 기댓값

결정 트리에서 다양한 노드를 만들면, 각 노드 별 엔트로피를 계산 후, 정보 이득이 가장 높은 값을 선택하고 다음 가지를 생성

➡️ 엔트로피와 Information Gain은 같이 움직인다 !

Information Gain의 수식적 표현

Gain(S,A) = H(S) - \sum_{v \in Value(A)} \frac{|S_v|}{|S|}H(S_v)

김협

예리하되 유연하게

이전 포스트

[Distribution] 지수 분포와 포아송 분포

다음 포스트