L1, L2정규화

HanJu Han·2024년 11월 30일

머신러닝/딥러닝을 위한 통계

목록 보기

4/4

L1과 L2 정규화의 핵심 차이

수식 비교

L1 정규화: Cost = MSE + λ|w|
L2 정규화: Cost = MSE + λw²

그래프 모양

L1: V자 모양
- 0에서 뾰족하게 꺾임
- 미분하면 w > 0일 때 +1, w < 0일 때 -1
- w = 0일 때는 [-1, +1] 범위의 값

L2: U자 모양
- 0에서 부드럽게 이어짐
- 미분하면 2w (항상 w에 비례)
- w = 0일 때도 부드럽게 연결됨

미분 특성이 가중치에 미치는 영향

L1의 경우:
- w가 양수일 때: MSE 미분 + λ
- w가 음수일 때: MSE 미분 - λ
- w = 0일 때: MSE 미분이 [-λ, +λ] 범위 안에 있으면 그대로 0 유지!

L2의 경우:
- 항상 MSE 미분 + 2λw
- w가 작아질수록 2λw도 작아짐
- 0에 매우 가까워질 순 있지만, 정확히 0은 어려움

실제 결과 예시

원래 가중치: [2.0, 0.5, 1.0, 0.1]

L1 적용 후: [1.5, 0.0, 0.8, 0.0]
- 작은 가중치들(0.5, 0.1)이 정확히 0이 됨
- 특성 선택 효과!

L2 적용 후: [1.6, 0.3, 0.7, 0.08]
- 모든 가중치가 작아지긴 함
- 하지만 정확히 0은 안됨

주요 특징과 용도

L1 정규화:
- 불필요한 특성을 완전히 제거(0으로 만듦)
- 특성 선택이 필요할 때 유용
- 희소 모델(sparse model) 생성 가능

L2 정규화:
- 모든 특성을 골고루 작게 만듦
- 과적합 방지에 효과적
- 모든 특성이 조금이라도 영향을 미치게 함

이러한 차이가 나타나는 근본적인 이유는 바로 그래프 모양 때문입니다:

L1은 V자 모양이라 뾰족한 지점(w=0)에서 정확히 멈출 수 있음
L2는 U자 모양이라 부드럽게 이어져서 정확히 0이 되기 어려움

HanJu Han

시리즈를 기반으로 작성하였습니다.

이전 포스트

L1, L2정규화

머신러닝/딥러닝을 위한 통계

모델 평가에서의 편향과 분산

0개의 댓글