# early stopping

7개의 포스트
post-thumbnail

[혼자 공부하는 머신러닝+딥러닝] - CH.7-3 Nerual Network Model Training

주요 개념 Drop out(드롭아웃): 은닉층에 있는 뉴런의 출력을 랜덤하게 껴서 오버피팅을 막는 기법, 드롭아웃은 훈련 중에 적용되며 평가나 예측에서는 적용하지 않음 Call back (콜백): 케라스 모델을 훈련하는 도중 어떤 작업을 수행할 수 있도록 도와주는 도구, 최상의 모델을 자동으로 저장해주거나 검증 점수가 더이상 향상되지 않으면 일찍 종료할 수 있음 Early Stopping (조기 종료): 검증 점수가 더이상 감소하지 않고 상승하여 오버피팅이 일어나면 훈련을 계속 진행하지 않고 멈추는 기법, 계산 비용과 시간을 절약할 수 있음 ![](https://velog.velcdn.com/images/jailies/post/6af7dde4-c01d-4a96-8cf5-09993368b3f

2022년 11월 15일
·
0개의 댓글
·
post-thumbnail

Problem Setting and Regularization

training을 하기 위해서 결정해야 할 것들이 정말 많지만 각 hyperparameter 사이에 dependency가 있기 때문에 guess가 매우 어렵다. 그렇기 때문에 실제로 machine learning은 굉장히 반복적인 작업이다. Dataset 좋은 choice를 위해 training sets, development sets, test sets를 이용할 수 있다. development set을 validation set이라고 부르기도 한다. 어떤 dataset이 주어졌을 때, 전체 sample에서 70%를 training set, 30%를 test set으로 나누거나 60%를 training set, 20%를 development set, 20%를 test set으로 나누는 것이 일종의 co

2022년 4월 17일
·
0개의 댓글
·
post-thumbnail

[DL] 과적합 방지

지난 포스팅에 이어서 과적합 방지에 대해 정리해보겠습니다. 과적합 방지를 위한 방법들 1. 가중치 감소(규제) $\begin{aligned}L1(\thetaw) &= \frac{1}{2} \sumi (outputi - targeti)^2 + \color{blue}{\lambda} \cdot \color{red}{\Vert \thetaw \Vert1}\\L2(\thetaw) &= \frac{1}{2} \sumi (outputi - targeti)^2 + \color{blue}{\lambda} \cdot \color{red}{\Vert \thetaw \Vert2}\end{aligned}$ 가중치가 커질 수록 모델이 특정 데이터셋에만 과적합될 확률이 높습니다. 최소화된 손실함수가 global minimum이 아니라 local minimum에 머무르게 되는 것입니다. 머신러닝 모델에서 L1, L2 정규화를 적용하여 모델의 기울기와 복잡도를 규제했

2022년 3월 6일
·
0개의 댓글
·

Ai_D68

Optimizer 기울기값을 얼만큼 경사하강법에 적용할 지 결정하는 hyperparameter 입니다. 학습률(learning rate)를 조절하여 기울기 값을 조정할 수 있습니다. 그 결과, 모델 성능을 효율적으로 개선할 수 있습니다.(global minima를 효율적으로 찾을 수 있습니다.) SGD(Stochastic Gradient Descent) 빈번하게 학습률을 갱신합니다. 1 cycle에 모든 데이터에 대해서 값을 갱신합니다. 모멘텀을 조정할 수 있습니다. 장점 : 비교적 빠른 시간안에 minima를 찾을 수 있습니다. 단점: 높은 분산. global minima를 찾았는 데도 불구하고 더 실행될 수 있습니다. Momentum SGD 에서 발생하는 high variance를 줄이기 위해 만들어 졌습니다. 연관성이 있는 방향으로 갈 수 있도록 해주고 fluctuation을 줄여줍니다. Adagrad 다른 optimizers 는 학

2022년 2월 24일
·
0개의 댓글
·
post-thumbnail

[Aiffel] 아이펠 24일차 개념 정리 및 회고

1. 머신러닝, 딥러닝 개념 정리 1) 텍스트 요약 문서 원문의 핵심 주제를 추출해 짧은 요약 문자으로 변환하는 것 요약 후 정보 손실을 최소화해야 함 = 정보를 압축하는 과정 추출적 요약 원문에서 문장을 추출해서 사용 머신러닝 방식 중 텍스트 랭크 알고리즘을 사용함 문장 분류에 해당 예) 네이버 뉴스 요약봇 추상적 요약 원문을 기반으로 요약된 내용을 담고 있는 새로운 문장을 생성 RNN 활용 가능 자연어 생성 영역 RNN의 문제 장기 의존성 문제 ✔✔✔🤔 seq2seq 2개의 RNN 아키텍처를 사용함 입력 시퀀스에서부터 출력 시퀀스를 생성함 원리 인코더(첫 번째 RNN)에 원문을 입력 인코더가 입력된 내용을 하나의 고정된 벡터(컨텍스트 벡터)로 변환함 디코더(두 번째 RNN)가 컨텍스트 벡터를 전달받아 한 단어 씩 생성, 요약본 완성 이번 실습에선 LSTM을 활용할

2022년 1월 27일
·
0개의 댓글
·
post-thumbnail

[ML] Boosting Model

1. Boosting Model 랜덤포레스트의 경우 각 트리를 독립적으로 만들지만, 부스팅은 만들어지는 트리가 이전에 만들어진 트리의 영향을 받습니다. AdaBoost의 경우 트리를 만들 때 잘못 분류되는 관측치에 가중치를 주어 다음 트리에서 해당 오류를 더 잘 신경 쓸 수 있도록 합니다. Gradient boost는 처음 예측값에서 더 나은 예측을 할 수 있도록 잔차를 학습하여 이전의 예측값을 조정해나갑니다. 1) AdaBoosting 알고리즘 1) 모든 관측치에 대해 가중치를 동일하게 설정하고, 2) 관측치를 복원추출하여 약한 학습기(트리)를 학습한 뒤 타겟을 분류합니다. 3) 잘못 분류된 관측치에 가중치를 부여해 다음 과정에서 샘플링이 잘되도록 합니다.

2022년 1월 17일
·
0개의 댓글
·

딥러닝 overfitting

학습내용 ANN 모델링 추가 사항 Q1) 이진분류 문제에서 output 노드를 1개로 하는 경우 Dense(2) -> sparsecategoricalcrossentropy, 여러개의 category를 받아 loss를 계산하기 때문에 output dim이 2이상이 되어야한다. Dense(1) -> binary_crossentropy, 0.5이상이면 1, 미만이면 0으로 예측하여 loss를 계산하는듯 하다. Q2) 랜덤시드 고정 Overfitting 종류 : Early stopping weight decay(L1, L2) Constraint Dropout * Early stopping * * weight decay, constraint * * Dropout * Learning rate

2021년 6월 10일
·
0개의 댓글
·