Regularization는 Overfitting을 줄이는 방법 중 하나이다.
이 방법은 Loss 함수에 파라미터의 크기를 추가하여 함께 고려하는 것이다.
여기서 W는 weight를 종합한 벡터다.
또한 는 hyperparameter로 너무 작으면 Regularization을 안하는 것과 같고 너무 크면 loss에 대해 고려를 하지 못해 적절한 값을 잡는게 중요하다.
모델의 경량화 : 웨이트가 클수록 보통 더 복잡한 비선형 관계를 표현하기 때문에 훈련 데이터에게 과도하게 맞춰질 수도 있다. 때문에 파라미터의 크기도 Loss 함수와 같이 고려하여 를 최소화한다.
이때, Loss 함수를 최소화할 때보다는 모든 파라미터의 크기가 전체적으로 줄어들지만, 그 정도는 파라미터의 중요도에 따라 다르다.
Loss의 상승값이 높은 파라미터는 파라미터의 크기를 줄여도 전체합()이 높기 때문에 상대적으로 덜 줄이게 된다.
반대로 Loss의 상승값이 없거나 오히려 줄어드는 경우에는 파라미터를 크게 줄이거나 0에 가까워지게 만든다.
과도한 학습 방지 : Regularization를 적용하면 원래 학습 초기에는 모든 파라미터가 0 근처로 초기화되기 떄문에 보다는 을 줄이는데 집중하다가, 이 어느 정도 줄어들면 파라미터 크기도 함께 고려하여 전체를 줄이는 방향으로 학습이 진행된다.
L1 Regularization : 이 식은 w에 대해 편미분을 한 것인데 l1은 w값에 상관 없이 오직 부호만을 보기 때문에 모든 파라미터를 공평하게 줄인다. 그러므로 L1의 방식은 작은 파라미터를 더 빠르게 0으로 만들어서 중요한 연결만 남기고 나머지는 제거하는 방식이라고 할 수 있다.
이러한 방식은 특징 선택(Feature Selection) 효과를 가져와 모델을 더욱 간결하게 만들어 준다.
L2 Regularization : 이 식은 크기가 작은 파라미터는 작게 큰 파라미터는 크게 줄이면서 파라미터마다 다르게 줄인다. 이러한 방식은 모든 파라미터를 고려하기 때문에 안정적이고 데이터의 특징을 골고루 반영할 수 있다.