Medical Image Classification - Feature selection using Entropy / Mutual information

Gyuha Park·2021년 8월 18일
0

Medical Image Analysis

목록 보기
5/21
post-thumbnail

1. Entropy

  • Amount of Information

    특정 사건에 대한 정보의 양은 다음과 같이 정의된다.

    H(x)=log{p(x)}H(x)=-\log\{p(x)\}

    p(x)p(x)가 사건 xx가 발생할 확률이라고 할 때 드물게 발생하는 사건일 수록 높은 정보를 갖는다고 가정하는 것이다.

  • Entropy

    이 때 Entropy는 log{p(x,y)}-\log\{p(x,y)\}의 expectation을 나타내며 다음과 같이 정의된다.

    H(X,Y)=i=1Nj=1Mp(xi,yj)log{p(xi,yj)}H(X,Y)=-\sum\limits_{i=1}^N\sum\limits_{j=1}^Mp(x_i,y_j)\log\{p(x_i,y_j)\}

  • Mutual Information

    Entropy 식에서 XX, YY가 독립인 경우 H(X,Y)=H(X)+H(Y)H(X,Y)=H(X)+H(Y)가 되므로 H(X,Y)H(X,Y)H(X)+H(Y)H(X)+H(Y)의 차이가 크다면 XX, YY의 연관성이 크다고 볼 수 있다. 이러한 것을 나타낸 것이 mutual information이며 아래 식과 같다.

    I(X,Y)=i=1Nj=1Mp(xi,yj)logp(xi,yj)p(xi)p(yj)I(X,Y)=\sum\limits_{i=1}^N\sum\limits_{j=1}^Mp(x_i,y_j)\log\cfrac{p(x_i,y_j)}{p(x_i)p(y_j)}

    I(X,Y)=H(X)+H(Y)H(X,Y)I(X,Y)=H(X)+H(Y)-H(X,Y)

    두 변수 XX, YY의 연관성이 크다면 I(X,Y)I(X,Y)가 커지게 된다.

2. Decision Tree

Decision tree는 feature를 두 그룹으로 나눴을 때 feature와 subject간의 불확실성이 가장 떨어지도록 나누는 것이다.

위 표로 예를 들면 feature 2를 선택하면 불확실성을 줄일 수 있을 것이다.

Feature 1의 entropy를 8 이상인 경우와 아닌 경우로 나눠서 계산하면

H(F1)=(0log0+15log15+45log45)H(F_1)=-(0\log0+\frac{1}{5}\log\frac{1}{5}+\frac{4}{5}\log\frac{4}{5})

Feature 2의 entropy를 10 이상인 경우와 아닌 경우로 나눠서 계산하면

H(F2)=0H(F_2)=0

결과를 보면 feature 2의 entropy, H(F2)H(F_2)가 더 낮기 때문에 선택이 된다. 이러한 과정을 반복하면 tree 구조를 만들 수 있다.

3. mRMR Feature Selection

Minimum-redundancy-maximum-relevance(mRMR)의 약자이다. Class와 연관성이 깊은 feature를 찾되 찾은 feature와 비슷한 feature는 고려하지 않는다.

아래 식은 feature와 class, 그리고 feature와 feature간의 mutual information을 구하는 식이다.

D(S,c)=1SfiSI(fi;c)D(S,c)=\cfrac{1}{|S|}\sum\limits_{f_i\in S}I(f_i;c)

Class와 feature간의 mutual information은 높을 수록 좋다.

R(S)=1S2fi,fjSI(fi;fj)R(S)=\cfrac{1}{|S|^2}\sum\limits_{f_i,f_j\in S}I(f_i;f_j)

중복을 피하기 위해 feature와 feature간의 mutual information은 낮을 수록 좋다.

최종 mRMR식은 다음과 같다.

mRMR=maxs[1SfiSI(fi;c)1S2fi,fjSI(fi;fj)]mRMR=\max\limits_{s}[\cfrac{1}{|S|}\sum\limits_{f_i\in S}I(f_i;c)-\cfrac{1}{|S|^2}\sum\limits_{f_i,f_j\in S}I(f_i;f_j)]

profile
Medical Imaging & AI

0개의 댓글