Medical Image Classification - Feature selection using L1 regularization

Gyuha Park·2021년 8월 18일

Deep Learning Medical Image feature selection

Medical Image Analysis

목록 보기

4/21

1. Regularization

모든 feature를 다 사용하면 overfitting의 위험이 있다. L1 regularization을 사용하면 feature를 selection할 수 있다.

$J(w)=-\cfrac{1}{m}[\sum_{i=1}^my^{(i)}\log h_w(x^{(i)})+(1-y^{(i)})\log(1-h_w(x^{(i)}))]+\lambda\sum_{j=1}^n|w_j|$

$w_j=w_{j}-\alpha\cfrac{\lambda}{m}\text{sgn}(w_j)-\alpha\cfrac{1}{m}\sum_{i=1}^m(h_w(x^{(i)})-y^{(i)})x_{j}^{(i)}$

위 식은 L1 regularization이 logistic regression식에 추가된 것이다. $|w_j|$ 의 gradient는 $\text{sgn}(w_j)$ 이며 $w_j$ 가 양수일 때는 1, 음수일 때는 -1, 0 일때는 미분 불가능이다. 이러한 성질과 함께 $\alpha\frac{\lambda}{m}$ 이 곱해지기 때문에 특정한 값이 $w_j$ 가 양수일 경우에는 빼지고, 음수일 경우에는 더해지므로 $w_j$ 가 0에 가까운 값을 갖도록 학습이 되므로 regularization의 효과를 얻는다.

$w$ 즉, weight들이 0에 가까운 값을 많이 갖게 되면 sparse representation, feature selection과 유사한 효과를 얻게 된다.

위 그림에서 왼쪽이 L1 regularization이고 오른쪽이 L2 regularization이다. Logistic regression에서 regularization term이 없다면 weight는 $\hat{\beta}$ 으로 수렴하겠지만 regularization term이 있다면 하늘색 영역 안으로 수렴하게 된다. 이 때 L1 regularization이 $\beta_2$ 가 특정한 값을 갖고 $\beta_1$ 이 0인 지점으로 수렴하게 되면 $\beta_2$ 만을 selection하는 feature selection의 효과를 볼 수 있는 것이다.

위 데이터를 예로 들어보자. Subject는 Normal과 AD(Alzheimer's Disease)로 나뉘며 Feature는 3개이다. 학습 시 L1 regularization을 적용한다고 가정하면 Normal, AD와 연관성이 있어 보이는 feature 2에 해당되는 weight는 남고 연관성이 없어 보이는 feature 1과 feature 3에 해당되는 weight는 0에 수렴하게 될 것이다.

Gyuha Park

Medical Imaging & AI

이전 포스트

Medical Image Classification - Advanced CNNs

다음 포스트

Medical Image Classification - Feature selection using L1 regularization

Medical Image Analysis

1. Regularization

Medical Image Classification - Advanced CNNs

Medical Image Classification - Feature selection using Entropy / Mutual information

0개의 댓글

관련 채용 정보