1. L1과 L2 거리의 기하학적 본질
- L1과 L2는 두 점 사이의 거리를 측정하는 서로 다른 방식이며, 이 기하학적 차이가 데이터 과학 전반에서 다양한 활용을 낳는 핵심 원리입니다.
1) L2 거리 (유클리드 거리, Euclidean Distance)
- 정의: 두 점을 잇는 가장 짧은 직선 거리입니다. 🦅
- 원리: 피타고라스의 정리에 기반하며, 우리에게 가장 직관적인 거리 개념입니다.
- 수식: L2=∑i=1n(xi−yi)2
- 기하학적 형태: 원점에서 L2 거리가 일정한 점들의 집합은 원(Circle)을 이룹니다. 이는 모든 방향으로의 거리를 동등하고 부드럽게 측정함을 의미합니다.
2) L1 거리 (맨해튼 거리, Manhattan Distance)
- 정의: 좌표축을 따라서만 이동하는 격자형 최단 경로입니다. 🚕
- 원리: 각 좌표의 차이의 절댓값을 모두 더하며, 대각선 이동은 허용되지 않습니다.
- 수식: L1=∑i=1n∣xi−yi∣
- 기하학적 형태: 원점에서 L1 거리가 일정한 점들의 집합은 마름모(Diamond)를 이룹니다. 이는 각 축 방향의 변화에만 집중하는 특성을 시각적으로 보여줍니다.
2. 규제화(Regularization)에서의 활용
규제화는 모델이 훈련 데이터에만 과도하게 최적화되는 과적합(Overfitting)을 방지하기 위한 기법입니다. 모델의 복잡도에 벌점(Penalty)을 부여하는 방식으로 작동하며, 이때 벌점의 기준으로 L1과 L2 Norm이 사용됩니다.
- 핵심 목표: 오차(Loss)를 최소화하는 동시에 가중치(Weight)의 크기도 최소화하는 것.
최종비용=오차(Loss)+λ×규제항(Penalty) 여기서 규제항으로 가중치 벡터의 L1 또는 L2 Norm이 사용됩니다. λ는 규제의 강도를 조절하는 하이퍼파라미터입니다.
3. L1과 L2 규제화의 작동 원리와 효과
규제화된 모델의 최적해는 '오차 등고선'과 '규제 경계'가 처음으로 만나는 지점입니다. 이 경계의 모양이 각 규제 방식의 독특한 효과를 결정합니다.
1) L2 규제 (Ridge)
- 원리: 규제항으로 가중치의 L2 Norm(제곱합)을 사용합니다. 이는 가중치가 원형 경계 안에 머물도록 제약합니다.
- 효과:
- 전반적인 가중치 감소: 둥근 원형 경계는 등고선과 접할 때 특정 가중치를 0으로 만들기보다는, 모든 가중치를 전반적으로 0에 가깝게 줄입니다.
- 안정성 확보: 모든 특징을 조금씩 반영하여 모델을 더 안정적이고 일반화 성능이 좋게 만듭니다. '모든 특징을 부드럽게 고려'하는 방식입니다.
2) L1 규제 (Lasso)
- 원리: 규제항으로 가중치의 L1 Norm(절댓값 합)을 사용합니다. 이는 가중치가 마름모 경계 안에 머물도록 제약합니다.
- 효과:
- 특징 선택 (Feature Selection): 마름모의 뾰족한 꼭짓점은 각 축 위에 존재합니다. 오차 등고선은 이 꼭짓점에서 경계와 만날 확률이 매우 높으며, 이 지점에서는 특정 가중치가 정확히 0이 됩니다.
- 희소 모델 (Sparse Model): 불필요한 특징의 가중치를 0으로 만들어, 해석하기 쉽고 간결한 모델을 만듭니다. '중요한 특징만 남기고 나머지는 제거'하는 방식입니다.
4. 최종 요약
| 구분 | L1 규제 (Lasso) | L2 규제 (Ridge) |
|---|
| 기반 거리 | 맨해튼 거리 | 유클리드 거리 |
| 규제 경계 | 마름모 (Diamond) | 원 (Circle) |
| 가중치 효과 | 일부 가중치를 정확히 0으로 만듦 | 모든 가중치를 0에 가깝게 만듦 |
| 핵심 기능 | 특징 선택 (Feature Selection) | 일반화 및 안정성 향상 |
| 결과 모델 | 희소 모델 (Sparse Model) | 전반적으로 가중치가 작은 모델 |
| 적합한 상황 | 불필요한 특징이 많다고 의심될 때 | 대부분의 특징이 유용하다고 판단될 때 |