Medical Image Classification - Feature selection using L1 regularization

Gyuha Park·2021년 8월 18일
0

Medical Image Analysis

목록 보기
4/21

1. Regularization

모든 feature를 다 사용하면 overfitting의 위험이 있다. L1 regularization을 사용하면 feature를 selection할 수 있다.

J(w)=1m[i=1my(i)loghw(x(i))+(1y(i))log(1hw(x(i)))]+λj=1nwjJ(w)=-\cfrac{1}{m}[\sum_{i=1}^my^{(i)}\log h_w(x^{(i)})+(1-y^{(i)})\log(1-h_w(x^{(i)}))]+\lambda\sum_{j=1}^n|w_j|

wj=wjαλmsgn(wj)α1mi=1m(hw(x(i))y(i))xj(i)w_j=w_{j}-\alpha\cfrac{\lambda}{m}\text{sgn}(w_j)-\alpha\cfrac{1}{m}\sum_{i=1}^m(h_w(x^{(i)})-y^{(i)})x_{j}^{(i)}

위 식은 L1 regularization이 logistic regression식에 추가된 것이다. wj|w_j|의 gradient는 sgn(wj)\text{sgn}(w_j)이며 wjw_j가 양수일 때는 1, 음수일 때는 -1, 0 일때는 미분 불가능이다. 이러한 성질과 함께 αλm\alpha\frac{\lambda}{m}이 곱해지기 때문에 특정한 값이 wjw_j가 양수일 경우에는 빼지고, 음수일 경우에는 더해지므로 wjw_j가 0에 가까운 값을 갖도록 학습이 되므로 regularization의 효과를 얻는다.

ww 즉, weight들이 0에 가까운 값을 많이 갖게 되면 sparse representation, feature selection과 유사한 효과를 얻게 된다.

위 그림에서 왼쪽이 L1 regularization이고 오른쪽이 L2 regularization이다. Logistic regression에서 regularization term이 없다면 weight는 β^\hat{\beta}으로 수렴하겠지만 regularization term이 있다면 하늘색 영역 안으로 수렴하게 된다. 이 때 L1 regularization이 β2\beta_2가 특정한 값을 갖고 β1\beta_1이 0인 지점으로 수렴하게 되면 β2\beta_2만을 selection하는 feature selection의 효과를 볼 수 있는 것이다.

위 데이터를 예로 들어보자. Subject는 Normal과 AD(Alzheimer's Disease)로 나뉘며 Feature는 3개이다. 학습 시 L1 regularization을 적용한다고 가정하면 Normal, AD와 연관성이 있어 보이는 feature 2에 해당되는 weight는 남고 연관성이 없어 보이는 feature 1과 feature 3에 해당되는 weight는 0에 수렴하게 될 것이다.

0개의 댓글