본 게시글 중
정보량파트에 대한 서술은 아래 링크를 참고하여 재구성하였습니다.
통계학에서 “정보량이 많다”
= 깜짝 놀랄만한 내용이다
- i.e., 확률이 낮은 사건일 수록 정보량은 높다. (놀랄 만한 일들은 거의 일어나지 않을 일들이기 때문)
Discrete r.v. 에 대해,
로그의 밑 는 응용 분야에 따라 다르게 쓸 수 있다.
보통 2, , 10 중 하나를 사용 (각각을 사용했을 때의 정보량 단위는 bit, nit, dit)
정보량의 정의에 가 붙은 이유
정보에 대한 아래의 개념들을 만족시킬 수 있는 수식이어야 하기 때문
- 확률값에 반비례할 것
- 두 사건의 정보량을 합치면, 각 사건의 정보량을 합친 것과 같을 것
열역학에서 주로 쓰이는 엔트로피 개념과 연결하려 애쓰지 말자
Sample space가 인 Discrete r.v. 가 있다면, 정보 엔트로피는 아래와 같다.
위의 Entropy 식이 왜 정보량의 기댓값을 의미하는지 의아할 때 읽어보자.
주사위 놀이를 하는데, 1부터 6까지의 주사위 눈이 나왔을 때 각각 100원부터 600원까지를 받는다고 생각해보자.
이 때의 기댓값은 다음과 같을 것이다.
즉, 기댓값의 정의는 일어날 수 있는 사건에 대한 확률 × 이벤트 값을 모두 합친 것
따라서, 정보 엔트로피는 모든 일어날 수 있는 사건에 대한 확률 × 정보량 값을 모두 합친 것이므로,
위 식을 계산하여 얻을 수 있는 값이 곧 정보 엔트로피이다.
Decision Tree에서 Entropy를 계산 후, 어떤 노드를 선택하는 것이 옳은지 따져볼 때 사용하는 기댓값
- 결정 트리에서 다양한 노드를 만들면, 각 노드 별 엔트로피를 계산 후, 정보 이득이 가장 높은 값을 선택하고 다음 가지를 생성
➡️ 엔트로피와 Information Gain은 같이 움직인다 !