정보 엔트로피(Information Entropy)

김협·2024년 7월 17일

본 게시글 중 정보량 파트에 대한 서술은 아래 링크를 참고하여 재구성하였습니다.


정보량

통계학에서 “정보량이 많다”

= 깜짝 놀랄만한 내용이다

  • i.e., 확률이 낮은 사건일 수록 정보량은 높다. (놀랄 만한 일들은 거의 일어나지 않을 일들이기 때문)

정보량의 수식적 표현

Info1P(X)\text{Info} \propto \frac{1}{P(X)}

Discrete r.v. XX에 대해,

I(x)=logb(P(X))I(x)=-\log_b(P(X))
  • 로그의 밑 bb는 응용 분야에 따라 다르게 쓸 수 있다.

    보통 2, ee, 10 중 하나를 사용 (각각을 사용했을 때의 정보량 단위는 bit, nit, dit)

  • 정보량의 정의에 log\log가 붙은 이유

    정보에 대한 아래의 개념들을 만족시킬 수 있는 수식이어야 하기 때문

    1. 확률값에 반비례할 것
    2. 두 사건의 정보량을 합치면, 각 사건의 정보량을 합친 것과 같을 것

Entropy: 평균 정보량

열역학에서 주로 쓰이는 엔트로피 개념과 연결하려 애쓰지 말자

Sample space가 {x1,x2,...,xn}\{x_1, x_2, ..., x_n \}인 Discrete r.v. XX가 있다면, 정보 엔트로피는 아래와 같다.

H(X)=E[I(X)]=i=1nP(xi)logb(P(xi))H(X)=E[I(X)]=-\sum_{i=1}^nP(x_i)\log_b(P(x_i))

Entropy 이해를 돕기 위한 예시

위의 Entropy 식이 왜 정보량의 기댓값을 의미하는지 의아할 때 읽어보자.

주사위 놀이를 하는데, 1부터 6까지의 주사위 눈이 나왔을 때 각각 100원부터 600원까지를 받는다고 생각해보자.

이 때의 기댓값은 다음과 같을 것이다.

16×100+16×200++16×600\frac{1}{6}\times 100 + \frac{1}{6}\times 200 + \cdots+\frac{1}{6}\times 600
=i=16P(xi)M(xi)=\sum_{i=1}^{6}P(x_i)M(x_i)
  • 여기서 M(xi)M(x_i)xix_i라는 사건 발생에 대해 받는 돈 (100원, 200원,…, 600원)이라고 생각하자

즉, 기댓값의 정의는 일어날 수 있는 사건에 대한 확률 × 이벤트 값을 모두 합친 것

따라서, 정보 엔트로피는 모든 일어날 수 있는 사건에 대한 확률 × 정보량 값을 모두 합친 것이므로,

H(x)=i=1nP(xi)(logb(P(xi)))H(x)=\sum_{i=1}^{n}P(x_i)(-\log_b(P(x_i)))

위 식을 계산하여 얻을 수 있는 값이 곧 정보 엔트로피이다.


Information Gain (정보 이득)

Decision Tree에서 Entropy를 계산 후, 어떤 노드를 선택하는 것이 옳은지 따져볼 때 사용하는 기댓값

  • 결정 트리에서 다양한 노드를 만들면, 각 노드 별 엔트로피를 계산 후, 정보 이득이 가장 높은 값을 선택하고 다음 가지를 생성

➡️ 엔트로피와 Information Gain은 같이 움직인다 !

Information Gain의 수식적 표현

Gain(S,A)=H(S)vValue(A)SvSH(Sv)Gain(S,A) = H(S) - \sum_{v \in Value(A)} \frac{|S_v|}{|S|}H(S_v)
profile
예리하되 유연하게

0개의 댓글