교차엔트로피

Rapsby·2020년 12월 11일

인공지능 수학

목록 보기

16/19

자기정보(Self-information): $i(A)$
$A$ : 사건
$i(A) = log_b(\frac{1}{P(A)}) = -log_bP(A)$
특성
$i(AB) = log_b(\frac{1}{P(A)P(B)}) = log_b(\frac{1}{P(A)})+log_b(\frac{1}{P(B)}) = i(A)+i(B)$

엔트로피(entropy)
자기정보의 평균
$H(X) = \sum_jP(A_j)i(A_j) = -\sum_jP(A_j)log_2P(A_j)$
특성
$0 \leq H(X) \leq log_2K, K :$ 사건의 수

엔트로피 활용
-평균비트수를 표현
-데이터 압축에 사용가능

$i(X)$ 활용

X P(X) i(X) code

A 1/2 1 0

B 1/4 2 10

C 1/8 3 110

D 1/8 3 111

평균비트수
$1 \times \frac{1}{2} + 2 \times \frac{1}{4} + 3\times \frac{1}{8} + 3\times \frac{1}{8} = \frac{14}{8} = \frac{7}{4}$ 비트

X	P(X)	i(X)	code
A	1/2	1	0
B	1/4	2	10
C	1/8	3	110
D	1/8	3	111

확률분포 $P$ 와 $Q$
$S = {A_j}$
$P(A_j)$ : 확률분포 $P$ 에서 사건 $A_j$ 가 발생할 확률
$Q(A_j)$ : 확률분포 $Q$ 에서 사건 $A_j$ 가 발생할 확률
$i(A_j)$ : 확률분포 $Q$ 에서 사건 $A_j$ 의 자기정보
- $i(A_j) = -log_2Q(A_j)$
-자기정보는 $A_j$ 를 표현하는 비트수
-잘못된 확률분포 $Q$ 를 사용하게 되면, 실제 최적의 비트수를 사용하지 못하게 됨

$H(P,Q)$
집합 $S$ 상에서 확률분포 $P$ 에 대한 확률분포 $Q$ 의 교차 엔트로피
확률분포 $P$ 에서 $i(A_j)$ 의 평균
$H(P,Q) = \sum_jP(A_j)i(A_j) = -\sum_jP(A_j)log_2Q(A_j) = -\sum_{x\in X}P(x)log_2Q(x)$
이 값은 정확한 확률분포 $P$ 를 사용했을 때의 비트수보다 크게 됨
$H(P,Q) = -\sum_{x\in X}P(x)log_2Q(x) \geq -\sum_jP(x)log_2P(x) =H(P)$
따라서 이 값은 $P$ 와 $Q$ 가 얼마나 비슷한지를 표현
같으면 $H(P,Q) = H(P)$
다르면 $H(P,Q) > H(P)$
$H(P,Q):$

$Q(X)$ 를 가정하고 코드 부여

X P(X) i(X) Q(X) i(X) code

A 1/2 1 1/8 3 000

B 1/4 2 1/8 3 001

C 1/8 3 1/4 2 01

D 1/8 3 1/2 1 1

평균비트수
$3 \times \frac{1}{2} +3\times \frac{1}{4} +2\times \frac{1}{8} +1\times \frac{1}{8} = \frac{21}{8}$ 비트
1.5배나 더 많은 비트 사용 필요

X	P(X)	i(X)	Q(X)	i(X)	code
A	1/2	1	1/8	3	000
B	1/4	2	1/8	3	001
C	1/8	3	1/4	2	01
D	1/8	3	1/2	1	1

분류 문제에서의 손실함수
분류문제
-주어진 대상이 $A$ 인지 아닌지를 판단
-주어진 대상이 $A,B,C,\dots$ 중 어느 것인지를 판단
기계학습에서는 주어진 대상이 각 그룹에 속할 확률을 제공
원하는 답 $P = [p_1,p_2,\dots,p_n],p_1+p_2+\dots+p_n = 1$
제시된 답 $Q = [q_1,q_2,\dots,q_n],q_1+q_2+\dots+q_n = 1$

$P$ 와 $Q$ 가 얼마나 다른지에 대한 척도 필요

제곱합
$\sum(p_i-q_i)^2$
확률이 다를수록 큰 값을 가짐
하지만 학습속도 느림

교차 엔트로피 $H(P,Q):$
확률이 다를수록 큰 값을 가짐
학습 속도 빠름
분류 문제에서 주로 교차 엔트로피 사용

$S = {A,B}$
실제 상황
$P = [1,0]$
$\to P(A) = 1, P(B) = 0$
예측 $Q(X)$
$[0.8, 0.2]: Q(A) = 0.8, Q(B) = 0.2$
$H(P,Q) = -\sum_{x \in X}P(x)log_2Q(x) = -1 \times log_20.8 = 0.3219$

$[0.5, 0.5]: Q(A) = 0.5, Q(B) = 0.5$
$H(P,Q) = -\sum_{x \in X}P(x)log_2Q(x) = -1 \times log_20.5 = 1$

$[0.2, 0.8]: Q(A) = 0.2, Q(B) = 0.8$
$H(P,Q) = -\sum_{x \in X}P(x)log_2Q(x) = -1 \times log_20.2 = 2.32$
import numpy as np
def crossentropy(P, Q):
  return sum([-P[i]*np.log2(Q[i]) for i in range(len(P))])
P = [1, 0, 0, 0]
Q = [0.7, 0.1, 0.1, 0.1]
print(crossentropy(P,Q))

Rapsby

Good Morning

이전 포스트

검정

다음 포스트

교차엔트로피

인공지능 수학

검정

numpy

0개의 댓글