# Regularization
[간단정리]Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation(IJCAI 2021)
Some notes on relation between KL-Divergence and MSE for Knowledge Distillation

Regularization이란 무엇인가?
학습 시 오버피팅을 방지하기 위해 가중치에 패널티를 주는 방식으로 사용됩니다. 그 방법의 예로는 L1&L2 Regularization, dropout, early stopping, weight decay 등이 있습니다.공통점오버피팅을 방지하기 위함에 목적이 있습니다.한

Problem Setting and Regularization
training을 하기 위해서 결정해야 할 것들이 정말 많지만 각 hyperparameter 사이에 dependency가 있기 때문에 guess가 매우 어렵다. 그렇기 때문에 실제로 machine learning은 굉장히 반복적인 작업이다. Dataset 좋은 cho
[DL-Basic 정리][Neural Network 최적화] Regularization 관련 주요 용어 정리
Regularization 이 글에서는 Neural Network을 최적화 하기위한 Regularization(정규화) 에 대한 주요 용어의 concept를 알아보도록 하자. 보통 Regularization 은 일반화(generalization) 가 잘되도록 하기 위

loss_Fun Bug를 잡자! Regularization
<SVM loss 구하는 공식> SVM loss를 사용하여 Loss=0 인 Weight 값을 구했다면 과연 Loss=0일 때 Weight 값이 유일한 값일까?!만약! Loss=0일 때 $Weight^2$ 을 한다면 Loss 값은?!즉, weight 를 제곱하여

모두를 위한 딥러닝 시즌 1 ML lec 7
저번 시간에 Cost 함수에 대해 배우고 Gradient descent은 못하고 지나쳤는데 이번 강의는 이에 대해 배운다. 우리는 Gradient descent 함수를 Cost 함수를 정의하고 값을 최소화하기 위해 사용한다.

[TIL] Normalization, Batch Normalization
정규화'정규화'라고 번역이 되는데 Regularization, Standardzation과 차이가 무엇일까?Normalization : 값 범위를 왜곡시키지 않고 데이터셋을 공통 스케일로 변경하는 것.ex. KNN, K-means 등 distance based algo

Loss and Regularization
예측값과 실제값의 사이의 오차 절대값을 계산함.Least Absolute Deviations (LAD) 라고도 부른다.$$ L\_{1} = \\sum |y_i-f(x_i)|$$예측값과 실제값의 사이의 오차 제곱한 값을 계산함.Least Square Error (LSE

Over fitting vs. Under fitting
과대적합일정 epoch 동안 validation set이 최고점을 찍고 감소하는 경향과소적합test set의 성능이 향상될 여지가 있을 때 발생원인모델이 너무 단순규제가 너무 많을 때충분히 오래 훈련하지 않은 경우과대적합 및 과소적합 방지적절한 epoch로 훈련과대적합

Regularization
오버피팅을 해결하기 위한 방법입니다.L1, L2, Dropout, Batchnormalization등이 있습니다.데이터의 형태를 의미있게 바꿔주거나 전처리과정중 하나입니다.minmax scalar 같인 것이 있습니다.X= petal length, Y = sepal le
Regularization
Regularization & Normalization Regularization는 정칙화라고 불리며, 오버피팅을 해결하기 위한 방법 중의 하나이다. L1, L2 Regularization, Dropout, Batch normalization 등이 있다. 이 방법들은

[딥러닝] Norm, Loss, Regularization
1. Norm Norm은 벡터의 크기(길이)를 측정하는 방법(함수)이다. 즉, 두 벡터 사이의 거리를 측정하는 방법이다. 그림 1 위 식에서 p는 Norm의 차수를 의미한다. p=1 이면 L1 Norm이고, p=2 이면 L2 Norm이다. n은 해당 벡터의 원소

Averaging Weights Leads to Wider Optima and Better Generalization (2018) / SWA 논문리뷰
한줄요약: 모델 앙상블 시 대상 모델의 prediction값들을 averaging 하지 말고 모델들의 weight를 averaging 하자. \[paper]AbstractIntroductionRelated WorkStochastic Weight AverageExperi

Deep ML. Regularization 정규화, softmax Classifier( loss function )
앞선 포스팅에서 Model의 복잡함을 좀 더 단순한 W를 선택하도록 도와주는 역할을 하는 것이 Regularization(정규화)이라고 말했다. 일반적인 Loss Function에서는 2가지 항을 가지게 된다. data loss regularization loss h