L1과 L2 정규화의 핵심 차이
L1 정규화: Cost = MSE + λ|w|
L2 정규화: Cost = MSE + λw²
L1: V자 모양
- 0에서 뾰족하게 꺾임
- 미분하면 w > 0일 때 +1, w < 0일 때 -1
- w = 0일 때는 [-1, +1] 범위의 값
L2: U자 모양
- 0에서 부드럽게 이어짐
- 미분하면 2w (항상 w에 비례)
- w = 0일 때도 부드럽게 연결됨
L1의 경우:
- w가 양수일 때: MSE 미분 + λ
- w가 음수일 때: MSE 미분 - λ
- w = 0일 때: MSE 미분이 [-λ, +λ] 범위 안에 있으면 그대로 0 유지!
L2의 경우:
- 항상 MSE 미분 + 2λw
- w가 작아질수록 2λw도 작아짐
- 0에 매우 가까워질 순 있지만, 정확히 0은 어려움
원래 가중치: [2.0, 0.5, 1.0, 0.1]
L1 적용 후: [1.5, 0.0, 0.8, 0.0]
- 작은 가중치들(0.5, 0.1)이 정확히 0이 됨
- 특성 선택 효과!
L2 적용 후: [1.6, 0.3, 0.7, 0.08]
- 모든 가중치가 작아지긴 함
- 하지만 정확히 0은 안됨
L1 정규화:
- 불필요한 특성을 완전히 제거(0으로 만듦)
- 특성 선택이 필요할 때 유용
- 희소 모델(sparse model) 생성 가능
L2 정규화:
- 모든 특성을 골고루 작게 만듦
- 과적합 방지에 효과적
- 모든 특성이 조금이라도 영향을 미치게 함
이러한 차이가 나타나는 근본적인 이유는 바로 그래프 모양 때문입니다: