# Regularization

[CS231n] Lecture 7: Training Neural Networks II 정리
Stanford University CS231n Lecture 7
[DL] Regularization (L1 Regularization, L2 Regularization)
overfitting을 막기 위해 위해 사용하는 방법: 벡터의 크기를 측정하는 방법 (두 벡터 사이의 거리를 측정하는 방법): 벡터 p, q의 각 원소들의 차이의 절대값의 합: q가 원점이라고 했을 때, 벡터 p, q의 원소들의 원점으로부터의 직선거리: 모델 복잡도에
최적화 - Regularization
generalization gap 을 줄이기 위해 사용파라미터들이 너무 커지지 않게 파라미터들의 제곱을 더해서 패널티로 부여데이터를 늘려서 deep learning의 이점을 극대화 할 수 있음.노이즈를 train data, weight에 주게 되면 성능이 올라가는데 이

[딥러닝 기초 다지기] - 최적화
부스트코스 강의 딥러닝 기초 다지기 중 '최적화의 주요 용어 이해하기, Gradient Descent Methods, Regularization'를 정리한 내용이다.GeneralizationTraining error가 0에 가까워도 test error가 커 genera
Regularization
early stoppingdropoutweight decayingL1 : 가중치를 0으로 만드는 경향L2 : 매끄럽게.. 소극적 반영L1L2batch normalization : 틀에 맞춘다.. → regularization(억제) 효과서로 다른 크기를 같은 scale

Regularization : L1 규제(Lasso), L2 규제(Ridge)
모델이 과적합되게 학습하지 않고 일반성을 가질 수 있도록 규제 하는 것을 말합니다.데이터의 피쳐를 손대지 않고 제너럴하게 만드려면 기울기(가중치)를 건드리면 안되고 사용하는 것이 Lasso와 Ridge입니다.w는 가중치를 의미합니다.MSE에 알파를 곱한 L1규제항을 더

파이썬 머신러닝 완벽 가이드 - 6. Regression(2) (규제, 로지스틱회귀, 회귀 트리 및 예제)
: $w^2$에 대해 패널티를 부여하는 방식. 주요 생성 파라미터는 alpha로, alpha가 커질 수록 회귀 계수 값을 작게 만든다.$RSS(w) + alpha\*||w||\_2^2$ 식을 최소화하는 w를 찾는 것: $|w|$에 패널티를 부여하는 방식. 불필요한 회귀
[간단정리]Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation(IJCAI 2021)
Some notes on relation between KL-Divergence and MSE for Knowledge Distillation

Problem Setting and Regularization
training을 하기 위해서 결정해야 할 것들이 정말 많지만 각 hyperparameter 사이에 dependency가 있기 때문에 guess가 매우 어렵다. 그렇기 때문에 실제로 machine learning은 굉장히 반복적인 작업이다. Dataset 좋은 cho
[DL-Basic 정리][Neural Network 최적화] Regularization 관련 주요 용어 정리
Regularization 이 글에서는 Neural Network을 최적화 하기위한 Regularization(정규화) 에 대한 주요 용어의 concept를 알아보도록 하자. 보통 Regularization 은 일반화(generalization) 가 잘되도록 하기 위

loss_Fun Bug를 잡자! Regularization
<SVM loss 구하는 공식> SVM loss를 사용하여 Loss=0 인 Weight 값을 구했다면 과연 Loss=0일 때 Weight 값이 유일한 값일까?!만약! Loss=0일 때 $Weight^2$ 을 한다면 Loss 값은?!즉, weight 를 제곱하여

모두를 위한 딥러닝 시즌 1 ML lec 7
저번 시간에 Cost 함수에 대해 배우고 Gradient descent은 못하고 지나쳤는데 이번 강의는 이에 대해 배운다. 우리는 Gradient descent 함수를 Cost 함수를 정의하고 값을 최소화하기 위해 사용한다.

[TIL] Normalization, Batch Normalization
정규화'정규화'라고 번역이 되는데 Regularization, Standardzation과 차이가 무엇일까?Normalization : 값 범위를 왜곡시키지 않고 데이터셋을 공통 스케일로 변경하는 것.ex. KNN, K-means 등 distance based algo

Loss and Regularization
예측값과 실제값의 사이의 오차 절대값을 계산함.Least Absolute Deviations (LAD) 라고도 부른다.$$ L\_{1} = \\sum |y_i-f(x_i)|$$예측값과 실제값의 사이의 오차 제곱한 값을 계산함.Least Square Error (LSE

Over fitting vs. Under fitting
과대적합일정 epoch 동안 validation set이 최고점을 찍고 감소하는 경향과소적합test set의 성능이 향상될 여지가 있을 때 발생원인모델이 너무 단순규제가 너무 많을 때충분히 오래 훈련하지 않은 경우과대적합 및 과소적합 방지적절한 epoch로 훈련과대적합