가중치 감쇠(Weight Decay)란?

My_oyster_house·2024년 10월 20일

가중치 감쇠(Weight Decay)란?

가중치 감쇠는 신경망이 학습하는 동안 가중치가 너무 커지는 것을 방지하여 모델이 과적합(overfitting)되는 것을 막기 위한 정규화 기법이다. 가중치가 너무 커지면 모델이 학습 데이터에 과도하게 적응하게 되고, 새로운 데이터에 대한 일반화 성능이 떨어지게 된다. 이를 방지하기 위해 손실 함수(loss function)에 가중치의 크기를 패널티로 더해 가중치가 일정 수준 이상 커지지 않도록 제어하는 역할을 한다.

작동 원리

가중치 감쇠는 학습 과정에서 손실 함수(Loss Function)에 가중치의 제곱합을 더하는 방식으로 이루어진다. 즉, 가중치가 커질수록 손실 값이 증가하기 때문에, 네트워크는 가중치를 줄이는 방향으로 학습하게 된다. 이렇게 가중치를 적당한 크기로 유지하면, 학습 데이터에 과도하게 맞추지 않고도 좋은 성능을 유지할 수 있다.

수식적으로, 가중치 감쇠가 적용된 손실 함수는 다음과 같은 형태로 나타낼 수 있다:

L_{\text{total}} = L_{\text{original}} + \lambda \sum w^2

여기서:

$L_{\text{total}}$ : 가중치 감쇠가 적용된 최종 손실 함수
$L_{\text{original}}$ : 원래의 손실 함수(예: 교차 엔트로피, 평균 제곱 오차 등)
$\lambda$ : 가중치 감쇠 강도를 결정하는 정규화 계수(regularization parameter)
$w$ : 모델의 각 가중치
$\sum w^2$ : 모든 가중치의 제곱합

장점

과적합 방지: 가중치가 너무 커지면 모델이 학습 데이터에만 지나치게 맞춰지기 쉽다. 가중치 감쇠는 이런 과적합을 방지하여, 모델이 새로운 데이터에서도 잘 작동하도록 돕는다.
모델의 일반화 능력 향상: 모델이 학습 데이터 외에 새로운 데이터에서도 성능을 발휘하는 능력을 일반화 능력이라고 한다. 가중치 감쇠는 모델이 과도하게 복잡해지는 것을 방지하여, 이 일반화 능력을 높인다.
모델의 복잡성 감소: 가중치 감쇠를 통해, 모델이 중요한 특징에 집중하고 덜 중요한 가중치들은 작게 유지할 수 있다. 이렇게 하면 모델의 복잡성이 줄어들고, 불필요한 패턴에 과도하게 맞추는 일을 막을 수 있다.

정규화 계수 $\lambda$ 의 역할

$\lambda$ 는 가중치 감쇠의 강도를 조절하는 중요한 하이퍼파라미터이다. 너무 작으면 가중치 감쇠의 효과가 거의 없고, 너무 크면 모델이 학습하지 못할 정도로 가중치를 줄이게 된다. 적절한 $\lambda$ 값을 찾는 것이 중요하다.

작은 $\lambda$ : 모델의 가중치에 대한 제약이 약해 과적합의 위험이 커진다.
큰 $\lambda$ : 모델의 가중치가 너무 제한되어 복잡한 패턴을 학습하지 못할 수 있다.

My_oyster_house

kwonhs.alice@gmail.com

이전 포스트

[논문번역] ImageNet Classification with Deep Convolutional Neural Networks(2012)

다음 포스트

가중치 감쇠(Weight Decay)란?