# dropout

21개의 포스트

[딥러닝] 전이학습

전이학습이란? > * 전이학습 정의 : 한 설정에서 학습한 것을 다른 설정의 일반화를 개선하기 위해 활용 하는 것 소스과제에서 습득한 지식을 타깃 과제 학습 시 추가로 입력 전이학습 방법 딥러닝 시스템은 전통적인 머신러닝 시스템보다 더 많은 훈련 시간과 데이터의 양이 필요 다양한 최첨단의 딥러닝 네트워크가 컴퓨터 비전 및 자연어 처리(NLP)와 같은 영역 전반에서 개발되고 테스트 됨 대부분의 경우 팀/연구자는 다른 사람들이 사용할 수 있도록 이러한 네트워크의 세부 사항을 공유 사전 훈련된 네트워크/모

2023년 4월 18일
·
0개의 댓글
·

[NLP #3] SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP, 2021)

한줄 요약: setence embedding하기 위해서 contrastive objective 적용 > Paper: https://aclanthology.org/2021.emnlp-main.552/ > Code: https://github.com/princeton-nlp/SimCSE > Reference: https://velog.io/@zvezda/SimCSE-Simple-Contrastive-Learning-of-Sentence-Embeddings-EMNLP-2021 Introduction # Background Sentence Embedding Contrastive objective # Challenge 효과적인 sentence embedding! # SimCSE (a simple contrastive sentence embedding framework) Unsepervised SimCSE: positive: dropo

2023년 3월 15일
·
0개의 댓글
·
post-thumbnail

[혼공머신] 7-3. 신경망 모델 훈련

Intro. 지금까지 인공신경망+심층신경망을 배우고, 이를 케라스 API로 직접 만들어봤다. 이번 시간엔 이렇게 모델을 훈련하면서 필요한 추가 도구들을 배워보자! 1. 신경망 모델 돌아보기 모델 만드는 함수 제작 신경망 모델 만드는 과정을 함수화해서 편하게 사용하려고 함. 이제는 함수에다가 쌓고 싶은 층만 전달해주면 알아서 신경망 모델 만들어 줌! fit의 결과값 시각화 저번 시간에 심층신경망 훈련했던 코드를 다시 보면, 아래와 같은 메시지가 있음 ![](https://velog.velcdn.c

2023년 2월 16일
·
0개의 댓글
·
post-thumbnail

[혁펜하임의 AI DEEP DIVE] 체험단 후기

안녕하세요 양콩공입니다 !!!!!!!! 인사를 드린 포스팅은 처음인 것 같아요😊 저는 작년에 빅데이터 개발자 과정 국비를 수강하면서 마지막에 추천 시스템 딥러닝 공모전에 참여하게 되었습니다! 🤞 그때 딥러닝 관련 기초 개념들에 대해 국비 교육으로 이해하기에는 한계가 있어서 '혁펜하임'님의 유튜브 강의가 큰 힘이 되었습니다! 그런데 이번에 패스트 캠퍼스에서 딥러닝을 주제로 강의를 찍으셔서 체험단에 참여하게 되어 강의 후기에 대해 자세하게 풀어보고자 합니다 ㅎㅎ 아직 velog 포스팅에는 어색하지만 최선을 다하겠습니다 .. ! > 본 게시글은 패스트 캠퍼스 [혁펜하임의 AI DEEP DIVE] 체험단 활동을 위해 작성되었습니다. ![](https://velog.velcdn.com/imag

2023년 2월 7일
·
0개의 댓글
·
post-thumbnail

논문 분석: Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning

오늘은 스터디원이 발표 예정인 논문을 직접 읽어보려고 한다. 기본적으로 알고가야할 부분인거 같다. uncertainty의 유형 Out of distribution test data 한번도 학습할 때 사용하지 못한 유형의 데이터가 테스트 시 사용되는 경우 Ex) 여러 개의 개 품종 사진으로 훈련된 모델이 주어졌을 때, 모델에게 고양이 사진을 사용하여 개 품종을 결정하도록 요청하는 예시입니다. aleatoric 학습 데이터 자체에 노이즈가 많아져서 불확실성이 생기는 경우 Ex) 학습할 때 분류할 세 가지 유형인 고양이, 개, 소가 있다고 가정하겠습니다. 이 때, 고양이 이미지만 노이즈가 있고 개와 소의 이미지는 정상적인 이미지인 경우라면 이 때 발생하는 불확실성을 뜻합니다. epistemic uncertainty 주어진 데이터 세트를 가장 잘 설명하는 최상의 모델 매개변수 및 모델 구조의 불확실성을 뜻함. Ex) 어떤 데이터셋에 대하여 아래 3가지 모델 중 어떤

2023년 2월 1일
·
0개의 댓글
·
post-thumbnail

CS231n Lecture 7

Lecture 7은 성능을 올리기 위한 여러 방법들을 알려준다. Optimizatation SGD(Stochastic Gradient Descent) 가장 기본 Gradient Descent 이며 mini-batch 단위로 끊어서 loss를 계산하고 parameters를 업데이트 한다. gradient 방향이 굉장히 크게 튀기 때문에 Zigzag path로 업데이트를 한다고 한다. 그래서 굉장히 느리고 비효율적이다. 문제점으로 Local Minima/Saddle point가 소개되었는데 SGD같은 경우는 Local Min

2023년 1월 30일
·
0개의 댓글
·
post-thumbnail

[딥러닝] Dropout: A Simple Way to Prevent Neural Networks from Overfitting

모든 Paper review는 제가 공부하고 남기는 기록입니다. 잘못된 내용이나 추가 의견이 있으시면 언제든 자유롭게 댓글 남겨주세요. > **Published: Journal of Machine Learning Research, 2014 Paper: https://jmlr.org/papers/v15/srivastava14a.html** 굉장히 유명한 논문입니다. 드롭아웃 개념을 먼저 제시한 페이퍼가 있는데, 이 논문이 더 잘 정리되어 있어서 많이들 보는 것 같습니다. 메커니즘을 잘 몰라도 쓰는 데는 지장이 없지만, 기왕이면 잘 알아두면 좋겠지요. [요약] Dropout 기법을 제안 모델의 학습 과정에 확률적으로 노이즈를 추가하여 robustness를 강화하는 방법 확률적으로 생성되는 여러 개의 모델을 앙상블하는 것과 비슷함 [서론] Abstract Dropout(드롭아웃)은 overfitting을 해결하기 위한 테크닉입니다.

2023년 1월 12일
·
2개의 댓글
·
post-thumbnail

딥 러닝5 - tensorflow_datasets

새싹 인공지능 응용sw 개발자 양성 교육 프로그램 심선조 강사님 수업 정리 글입니다. tensorflow_datasets Downloading and preparing dataset 89.91 MiB (download: 89.91 MiB, generated: Unknown size, total: 89.91 MiB) to dataset/eurosat/rgb/2.0.0... Dl Completed...: 0 url [00:00, ? url/s] Dl Size...: 0 MiB [00:00, ? MiB/s] Extraction completed...: 0 file [00:00, ? file/s] Generating splits...: 0%| | 0/1 [00:00<?, ? splits/s] Generating train examples...: 0%| | 0

2022년 12월 15일
·
0개의 댓글
·
post-thumbnail

[딥러닝 기초개념] Dropout

Dropout 네트워크의 유닛의 일부만 동작하도록하고, 일부는 동작하지 않도록 하는 방법이다. dropout은 1. 오버피팅을 방지하기 위한 방법 중 하나이며, hidden layer의 일부 유닛을 동작하지 않게 하는 것이다. hidden layer에 드롭아웃을 확률 p로 적용할 때, hidden 유닛들은 p확률로 제거되는 것이다. z는 0혹은 1을 가질수 있는 베르누이 분포 랜덤변수 벡터로, 확률적으로 h와 곱해지면서 hidden layer안에 있는 몇개의 노드를 날려버릴 수 있다. 이때 확률은 일반적으로 0.5이지

2022년 4월 3일
·
0개의 댓글
·

Ai_D68

Optimizer 기울기값을 얼만큼 경사하강법에 적용할 지 결정하는 hyperparameter 입니다. 학습률(learning rate)를 조절하여 기울기 값을 조정할 수 있습니다. 그 결과, 모델 성능을 효율적으로 개선할 수 있습니다.(global minima를 효율적으로 찾을 수 있습니다.) SGD(Stochastic Gradient Descent) 빈번하게 학습률을 갱신합니다. 1 cycle에 모든 데이터에 대해서 값을 갱신합니다. 모멘텀을 조정할 수 있습니다. 장점 : 비교적 빠른 시간안에 minima를 찾을 수 있습니다. 단점: 높은 분산. global minima를 찾았는 데도 불구하고 더 실행될 수 있습니다. Momentum SGD 에서 발생하는 high variance를 줄이기 위해 만들어 졌습니다. 연관성이 있는 방향으로 갈 수 있도록 해주고 fluctuation을 줄여줍니다. Adagrad 다른 optimizers 는 학

2022년 2월 24일
·
0개의 댓글
·
post-thumbnail

[임베디드] 레귤레이터

Regulator 입력 전압을 정전압화하여 부하전류, 입력전압, 주변온도 등에 관계없이 일정한 출력을 만들어 주는 장치/IC 등을 통칭해서 말합니다. DC-DC 컨버터나 LDO도 레귤레터의 한종류라고 할수 있습니다. 레귤레이터는 크게 스위칭 방식과 리니어 방식의 레귤레이터로 나뉩니다. Linear Regulator 직접적으로 전압을 떨어뜨리는 방식이며 LDO라고 하기도 합니다. 입력 전원보다 낮은 출력만 낼 수 있습니다. 변환 과정에서 열이 많이 발생하여 전력 효율이 낮습니다. 따라서 전류 요구량이 낮은 회로에 사용하고 높게 사용하려면 방열판이 필수적입니다. Switching Regulator 스위치 소자의 ON/OFF 반복 행위(PWM)를 통해 원하는 출력을 만들어내는 소자입니다. 비교적 큰 전력을 흘릴 수 있고, 강압과 승압이 모두 가능하며 부전압을 생성할 수도 있습니다. 하지만 스위칭 과정에서 노이즈가 많이 발생하기 때문에 정밀한 제품에는 적합하지 않습니다.

2022년 2월 22일
·
0개의 댓글
·
post-thumbnail

[Aiffel] 아이펠 35일차 개념 정리 및 회고

1. 머신러닝 개념 정리 참고 > 머신러닝의 목표 모델이 표현하는 확률 분포와 데이터의 실제 분포를 최대한 유사하게 만드는 최적의 파라미터 값을 찾는 것 1) 모델 파라미터 $y=f(x)=ax+b\ \ \ \ \ \ a,b∈R$라고 할 때 (a,b)가 위치하는 $R$ 공간을 parameter space라고 함 2) prior likelihood posterior 베이시안 머신러닝 모델 파라미터를 고정된 값이 아닌 확률 변수로 보기 때문에, 불확실성을 가지고 있다고 전제한다. 용어 설명 |전제| |-| |어떤 데이터 집합 $X$가 주어졌을 때 데이터가 따르는 확률 $p(X)$가 있을 것. 이때 $p(X)$를 가장 잘 나타내는 일차함수 모델 $y=ax+b=θ^{⊤}x$를 찾는 것이 목표임.| |$p(θ)$|prior probability, 사전확률, 데이터를 관찰하기 전에 paramet

2022년 2월 16일
·
1개의 댓글
·

[Aiffel] 아이펠 32일차 개념 정리 및 회고

1. 딥러닝 개념 1) Regularization & Normalization ||Regularization|Normalization| |:---:|:---:|:---:| |목적|overfitting 해결|데이터의 형태를 트레이닝에 적합하도록 전처리하는 과정| |방법|1. L1 regularization 2. L2 regularization3. Batch normalization|z-score, minmax scaler| 2) L1 regularization 정의 lasso 정의 마지막에 더하는 부분이 없은면 linear regression과 동일함 Lp norm이 1일 때를 나타내는 것 Lp norm 공식 ![lp norm 공식](https://imag

2022년 2월 11일
·
0개의 댓글
·

[D&A 운영진 딥러닝 스터디] 2주차 1차시

순전파(Forward Propagation) 올바른 순서대로 학습을 진행 최초 입력값으로부터 각 층마다 존재하는 가중치와 연산하고 활성화 함수를 통과하는 과정을 순서대로 이어나가 최종 layer까지 계산한 후 실제 label과 오차를 계산하는 것 역전파(Backward Propagation) 반대 방향으로 학습을 진행 순전파에서 계산한 오차를 기반으로 기울기를 사용하여 가중치 업데이트를 위해 시행 신호 E에 극소적 미분 $\cfrac{\partial y}{\partial x}$를 곱해 다음 노드로 전달 중첩 시, 연쇄법칙(Chain rule)과 같아짐 (1) 덧셈 노드의 역전파 >$$ >z = x+y \\ >\cfrac{\partial{z}}{\partial{x}} = 1 \\ >\cfrac{\partial{z}}{\partial{y}} = 1 >$$ > 역전파 시, 입력된 값 그대로 출력 (2) 곱셈 노드의 역전파 >$$ >z = x

2022년 1월 11일
·
0개의 댓글
·
post-thumbnail

Over fitting vs. Under fitting

과대적합과 과소적합 https://www.tensorflow.org/tutorials/keras/overfitandunderfit 과대적합 일정 epoch 동안 validation set이 최고점을 찍고 감소하는 경향 과소적합 test set의 성능이 향상될 여지가 있을 때 발생 원인 모델이 너무 단순 규제가 너무 많을 때 충분히 오래 훈련하지 않은 경우 과대적합 및 과소적합 방지 적절한 epoch로 훈련 과대적합 방지에는 더 많은 train data 추가하는 게 best(일반화 성능 향상) 차선책으로는 regulization 기법을 추천 → 가중치 규제, dropout등 > 👉 regulization 모델이 저장할 수 있는 정보의 양과 종류에 제약을 부과하는 방법. 네트워크가 적은

2021년 11월 16일
·
0개의 댓글
·
post-thumbnail

Attention-based Dropout Layer for WSOL 논문 리뷰

설명 영상 Video Label Attention based Dropout Layer → self-attention mechanism hiding the most discriminative part highlighting the informative region for improving the recognition power Introduction 문제 제시 object detection 에서 이루어지는 많은 track discriminative

2021년 10월 1일
·
0개의 댓글
·
post-thumbnail

Regularization(L2 Regularization, Dropout)

이번 글에서는 정규화(Regularization)에 대해 알아보겠다. 만약 우리가 가지고 있는 데이터가 그렇게 크지 않다면, overfitting이 될 가능성이 크기 때문에 overfitting되지 않게 하기 위해 Regularization을 꼭 해줘야 한다. 출처 왜 정규화가 필요한지, 또 정규화를 하게 되면 어떻게 되는지 알아보자. Packages 위에서 다운받은 데이터셋은 이 그림을 보면서 이해하면 편하다. 프랑스 골키퍼가 어느

2021년 8월 24일
·
0개의 댓글
·

Dropout

Prologue "parameter 4개로 코끼리 모양도 구현하겠다. 5개로는 코도 움직일 걸?" - 폰 노이만 What did the authors try to accomplish? #1. 대규모 parameter가 가진 힘으로 딥러닝 모델은 객체탐지, 자연어 처리, 음성인식 같은 복잡한 과제를 처리할 수 있게 됐다. parameter는 양날의 검 같은 거라 많을수록 학습을 더 잘하지만 overfitting도 쉽게 일어난다. 모델학습 차원에서 이것을 피하기 위한 선택지로 early stopping, L1 & L2 regularization이 있다. #2. 비슷한 맥락으로 overfitting을 피하면서 성능 좋은 모델을 만드려면 서로 다른 구조와 서로 다른 학습 데이터를 가진 모델 어려

2021년 7월 11일
·
0개의 댓글
·

딥러닝 overfitting

학습내용 ANN 모델링 추가 사항 Q1) 이진분류 문제에서 output 노드를 1개로 하는 경우 Dense(2) -> sparsecategoricalcrossentropy, 여러개의 category를 받아 loss를 계산하기 때문에 output dim이 2이상이 되어야한다. Dense(1) -> binary_crossentropy, 0.5이상이면 1, 미만이면 0으로 예측하여 loss를 계산하는듯 하다. Q2) 랜덤시드 고정 Overfitting 종류 : Early stopping weight decay(L1, L2) Constraint Dropout * Early stopping * * weight decay, constraint * * Dropout * Learning rate

2021년 6월 10일
·
0개의 댓글
·
post-thumbnail

Drop-Out :: Overfitting의 새로운 해결방안

Fitting > Fitting 이란? 모델의 학습 적합도를 의미한다. 충분한 학습이 되지 못해, 적합도가 떨어지는 모델을 Underfitting이 된 상태라고 의미하며, 너무 train dataset에 과적합되어있는 경우를 Overfitting이라고 한다. Overfitting의 문제점 Overfitting이 된경우, trainset에 과적합이 되어있어서, 새로운 test 데이터 set에 과적합된 모델을 적용할 경우, Good-fitting이 된 모델보다 손실값이 큰 값이 나오는 경우가 발생한다. 따라서 이러한 이유에서 overfitting을 막을 수 있는 모델이 필요하다.![](https://images.velog.io/images/uonmf97/post/a4

2021년 5월 17일
·
0개의 댓글
·