Regularization(규제)

신민기·2026년 3월 19일

AI

목록 보기
17/17

Regularization(규제)란?

RegularizationOverfitting줄이는 방법 중 하나이다.
이 방법은 Loss 함수에 파라미터의 크기를 추가하여 함께 고려하는 것이다.

L+λpWppL + \frac \lambda p ||W||^p_p

여기서 W는 weight를 종합한 벡터다.

또한 λ\lambdahyperparameter로 너무 작으면 Regularization을 안하는 것과 같고 너무 크면 loss에 대해 고려를 하지 못해 적절한 값을 잡는게 중요하다.

Regularization의 장점

  • 모델의 경량화 : 웨이트가 클수록 보통 더 복잡한 비선형 관계를 표현하기 때문에 훈련 데이터에게 과도하게 맞춰질 수도 있다. 때문에 파라미터의 크기도 Loss 함수와 같이 고려하여 L+λpWppL + \frac \lambda p ||W||^p_p최소화한다.
    이때, Loss 함수를 최소화할 때보다는 모든 파라미터의 크기가 전체적으로 줄어들지만, 그 정도는 파라미터의 중요도에 따라 다르다.
    Loss의 상승값이 높은 파라미터는 파라미터의 크기를 줄여도 전체합(L+λpWppL + \frac \lambda p ||W||^p_p)이 높기 때문에 상대적으로 덜 줄이게 된다.
    반대로 Loss의 상승값이 없거나 오히려 줄어드는 경우에는 파라미터를 크게 줄이거나 0에 가까워지게 만든다.

  • 과도한 학습 방지 : Regularization를 적용하면 원래 학습 초기에는 모든 파라미터가 0 근처로 초기화되기 떄문에 λpWpp\frac \lambda p ||W||^p_p보다는 LL줄이는데 집중하다가, LL이 어느 정도 줄어들면 파라미터 크기도 함께 고려하여 전체를 줄이는 방향으로 학습이 진행된다.

L1 Regularization과 L2 Regularization의 차이

L1 Regularization : L+λsign(w)\nabla L + \mathbf{\lambda \cdot \text{sign}(w)} 이 식은 w에 대해 편미분을 한 것인데 l1은 w값에 상관 없이 오직 부호만을 보기 때문에 모든 파라미터를 공평하게 줄인다. 그러므로 L1의 방식은 작은 파라미터를 더 빠르게 0으로 만들어서 중요한 연결만 남기고 나머지는 제거하는 방식이라고 할 수 있다.
이러한 방식은 특징 선택(Feature Selection) 효과를 가져와 모델을 더욱 간결하게 만들어 준다.

L2 Regularization : L+λw\nabla L + \mathbf{\lambda w} 이 식은 크기가 작은 파라미터는 작게 큰 파라미터는 크게 줄이면서 파라미터마다 다르게 줄인다. 이러한 방식은 모든 파라미터를 고려하기 때문에 안정적이고 데이터의 특징을 골고루 반영할 수 있다.

profile
AI 어렵다

0개의 댓글