# weight decay

3개의 포스트
post-thumbnail

Problem Setting and Regularization

training을 하기 위해서 결정해야 할 것들이 정말 많지만 각 hyperparameter 사이에 dependency가 있기 때문에 guess가 매우 어렵다. 그렇기 때문에 실제로 machine learning은 굉장히 반복적인 작업이다. Dataset 좋은 choice를 위해 training sets, development sets, test sets를 이용할 수 있다. development set을 validation set이라고 부르기도 한다. 어떤 dataset이 주어졌을 때, 전체 sample에서 70%를 training set, 30%를 test set으로 나누거나 60%를 training set, 20%를 development set, 20%를 test set으로 나누는 것이 일종의 co

2022년 4월 17일
·
0개의 댓글
·

딥러닝 overfitting

학습내용 ANN 모델링 추가 사항 Q1) 이진분류 문제에서 output 노드를 1개로 하는 경우 Dense(2) -> sparsecategoricalcrossentropy, 여러개의 category를 받아 loss를 계산하기 때문에 output dim이 2이상이 되어야한다. Dense(1) -> binary_crossentropy, 0.5이상이면 1, 미만이면 0으로 예측하여 loss를 계산하는듯 하다. Q2) 랜덤시드 고정 Overfitting 종류 : Early stopping weight decay(L1, L2) Constraint Dropout * Early stopping * * weight decay, constraint * * Dropout * Learning rate

2021년 6월 10일
·
0개의 댓글
·

AdamW, L2 regularization, weight decay

L2 regularization에 대하여 자세한 정보를 찾아보던 중 좋은 글을 찾았다. AdamW의 논문에 대한 분석으로 총 2페이지로 구성이되어 있었다. L2 regularization과 weight decay에 대한 자세한 설명과 이로 인해 AdamW가 나오게 된 이유로 그림과 수식들을 통해 설명되어있다. https://hiddenbeginner.github.io/deeplearning/paperreview/2019/12/29/paperreviewAdamW.html

2021년 2월 12일
·
0개의 댓글
·