1. Entropy
-
Amount of Information
특정 사건에 대한 정보의 양은 다음과 같이 정의된다.
H(x)=−log{p(x)}
p(x)가 사건 x가 발생할 확률이라고 할 때 드물게 발생하는 사건일 수록 높은 정보를 갖는다고 가정하는 것이다.
-
Entropy
이 때 Entropy는 −log{p(x,y)}의 expectation을 나타내며 다음과 같이 정의된다.
H(X,Y)=−i=1∑Nj=1∑Mp(xi,yj)log{p(xi,yj)}
-
Mutual Information
Entropy 식에서 X, Y가 독립인 경우 H(X,Y)=H(X)+H(Y)가 되므로 H(X,Y)와 H(X)+H(Y)의 차이가 크다면 X, Y의 연관성이 크다고 볼 수 있다. 이러한 것을 나타낸 것이 mutual information이며 아래 식과 같다.
I(X,Y)=i=1∑Nj=1∑Mp(xi,yj)logp(xi)p(yj)p(xi,yj)
I(X,Y)=H(X)+H(Y)−H(X,Y)
두 변수 X, Y의 연관성이 크다면 I(X,Y)가 커지게 된다.
2. Decision Tree
Decision tree는 feature를 두 그룹으로 나눴을 때 feature와 subject간의 불확실성이 가장 떨어지도록 나누는 것이다.
위 표로 예를 들면 feature 2를 선택하면 불확실성을 줄일 수 있을 것이다.
Feature 1의 entropy를 8 이상인 경우와 아닌 경우로 나눠서 계산하면
H(F1)=−(0log0+51log51+54log54)
Feature 2의 entropy를 10 이상인 경우와 아닌 경우로 나눠서 계산하면
H(F2)=0
결과를 보면 feature 2의 entropy, H(F2)가 더 낮기 때문에 선택이 된다. 이러한 과정을 반복하면 tree 구조를 만들 수 있다.
3. mRMR Feature Selection
Minimum-redundancy-maximum-relevance(mRMR)의 약자이다. Class와 연관성이 깊은 feature를 찾되 찾은 feature와 비슷한 feature는 고려하지 않는다.
아래 식은 feature와 class, 그리고 feature와 feature간의 mutual information을 구하는 식이다.
D(S,c)=∣S∣1fi∈S∑I(fi;c)
Class와 feature간의 mutual information은 높을 수록 좋다.
R(S)=∣S∣21fi,fj∈S∑I(fi;fj)
중복을 피하기 위해 feature와 feature간의 mutual information은 낮을 수록 좋다.
최종 mRMR식은 다음과 같다.
mRMR=smax[∣S∣1fi∈S∑I(fi;c)−∣S∣21fi,fj∈S∑I(fi;fj)]