[AI] Overfitting, Regularization

Jiyeahhh·2021년 11월 23일

[Study] AI

목록 보기

3/7

💡 그렇다면 linear regression으로 충분할까?

1. Transform the data

2. Use a different hypothesis class (e.g. non-linear functions)

주어진 문제를 linear하게 표현하지않고, 다항식으로 표현 ❗

$y = θ_1x_1 + θ_0$
⇒ $y = θ_2{x_2}^2 + θ_1x_1 + θ_0$

💡 Data에 가장 적합한 fit은 무엇일까? Order-9 fit이 가장 좋은걸까?

기계 학습(machine learning)에서 학습 데이터를 과하게 학습(overfitting)하는 것
모든 머신 러닝 알고리즘에서 매우 중요한 문제 ❗
우리는 training data는 완벽하게 예측하지만, 새로운 data로는 잘 일반화되지 않는 함수 (hypothesis)를 찾을 수 있음
ex) 위에서 본 order-9 fit
기계 학습의 핵심은 training data로부터 model을 학습하고, 그 model을 바탕으로 Unseen data 즉, test data를 예측하는 것
만약, 파라미터의 수가 많다면 모든 data points를 기억(memorizes)하지만, 다른 모든 곳에서는 wild!!

📌 Another overfitting example

다항식 M의 degree가 높을수록, 자유도가 높아지고, training data를 과적합(overfitting)할 수 있는 capacity도 높아짐!
M = 3이 가장 적합

📌 Typical overfitting plot

💡 참고
딥러닝에서는 다름! 데이터가 많아도 너무 많고, 모델 사이즈를 키워도 성능 좋아짐!

💡 그럼 overfitting이 발생했다는 걸 어떻게 알고 예방할 수 있을까?

1. Cross-validation (다음 챕터)

2. Lager data

3. 쓸데없는 가설(hypotheses) 버리기

4. Regularization (정규화)

일반적으로 과적합을 방지하거나 최적화에 도움이 되는 방법
특히 최적화를 돕거나 과적합을 방지하기 위해 training optimization objective에 additional terms (추가 항 사용)
⇒ Shrinkage in statics
Idea : 비용 함수(cost function)를 변경하여 가설(hypothesis)의 복잡성에 패널티 부여

$J(w) = J_D(w) + λJ_{pen}(w)$
$J_D(w)$ : cost function

$J_D(w) = \frac{1}{N_{tr}} \displaystyle\sum_{i=1}^{N_{tr}}(y_i - \hat{y}_i)^2$
$y_i$ : 정답 값 (label)
$\hat{y}_i$ : 예측한 값
λ : 제약 조건
클수록 전체가 작아짐!
$J_{pen}(w)$ : Regularization term
$J_D(\theta)$ 를 minimalize하려고 하면 memorize하게 됨! 때문에 Regularization term을 두고 있음

📌 Norm

벡터의 길이 혹은 크기를 측정하는 방법(함수)
단어나 기사와 같은 것들을 벡터로 표현해서 비슷한 것들은 거리를 최소화하고, 비슷하지 않은 것들은 거리를 최대화할 때 norm의 개념이 활용
Lp norm

$||x||_p = \left(\displaystyle\sum_{i=1}^{n}|x_i|^p\right)^\frac{1}{p}$

L1 norm
: 벡터의 요소에 대한 절댓값의 합, Manhattan norm

$||x||_1=\displaystyle\sum_{i=1}^{n}|x_i|$
$L1_{loss} = \displaystyle\sum_{i=1}^{n}|y_{true} - y_{predicted}|$
L2 norm
: 각 원소들의 제곱의 합을 제곱근으로 이상치에 민감, Euclidean norm

$||x||_2=\sqrt{\displaystyle\sum_{i=1}^{n}(x_i)^2} = \sqrt{x^Tx}$
$L2_{loss} = \displaystyle\sum_{i=1}^{n}(y_{true} - y_{predicted})^2$