모든 feature를 다 사용하면 overfitting의 위험이 있다. L1 regularization을 사용하면 feature를 selection할 수 있다.
위 식은 L1 regularization이 logistic regression식에 추가된 것이다. 의 gradient는 이며 가 양수일 때는 1, 음수일 때는 -1, 0 일때는 미분 불가능이다. 이러한 성질과 함께 이 곱해지기 때문에 특정한 값이 가 양수일 경우에는 빼지고, 음수일 경우에는 더해지므로 가 0에 가까운 값을 갖도록 학습이 되므로 regularization의 효과를 얻는다.
즉, weight들이 0에 가까운 값을 많이 갖게 되면 sparse representation, feature selection과 유사한 효과를 얻게 된다.
위 그림에서 왼쪽이 L1 regularization이고 오른쪽이 L2 regularization이다. Logistic regression에서 regularization term이 없다면 weight는 으로 수렴하겠지만 regularization term이 있다면 하늘색 영역 안으로 수렴하게 된다. 이 때 L1 regularization이 가 특정한 값을 갖고 이 0인 지점으로 수렴하게 되면 만을 selection하는 feature selection의 효과를 볼 수 있는 것이다.
위 데이터를 예로 들어보자. Subject는 Normal과 AD(Alzheimer's Disease)로 나뉘며 Feature는 3개이다. 학습 시 L1 regularization을 적용한다고 가정하면 Normal, AD와 연관성이 있어 보이는 feature 2에 해당되는 weight는 남고 연관성이 없어 보이는 feature 1과 feature 3에 해당되는 weight는 0에 수렴하게 될 것이다.