[Week 3-1] 💡딥 러닝 기초

Jade·2021년 2월 1일

부스트캠프 AI Tech

목록 보기

11/54

3주차 월요일

딥 러닝 기본 용어

딥 러닝의 역사

📝[딥 러닝 기본 용어]

딥 러닝에 필요한 것은?

+ 모델이 학습할 데이터
+ 데이터를 학습할 모델
+ 모델이 잘 학습했는지를 평가하는 지표인 손실 함수
+ 손실 함수의 값이 줄어들도록 모델 파라미터를 최적화하는 알고리즘

손실 함수
실제 값과 예측값의 차이를 나타내는 함수로, 모델을 어느 방향으로 학습시킬 것인가, 어떻게 업데이트할 것인가를 결정하는 지표
- 회귀 문제 : MSE (Mean Square Error)
- 분류 문제 : CE (Crossentropy Error)
- 확률론 문제 : MLE (Maximum Likelyhood Error)

손실 함수는 우리가 이루고자 하는 목적이 아니다
손실 함수는 목표라기보다는 척도이자 근사치다. 문제에 따라 전형적인 손실 함수가 있지만, 데이터 상황에 따라 다른 손실 함수를 사용하는 게 나을 수도 있다.

ex) 선형 회귀 모델을 만드는데, 데이터에 노이즈가 많은 경우
MSE를 사용할 경우 노이즈가 증폭될 수도 있다. 이럴 때는 오히려 절대값오차가 나을 수도.

최적화 알고리즘
손실 함수가 최소화되는 방향으로 모델의 가중치와 바이어스(파라미터)를 업데이트하고, 모델이 처음 보는 데이터에서도 잘 동작할 수 있는 방향으로 학습시키는 알고리즘.
요즘은 대개 어느 상황에 써도 성능이 괜찮게 나오는 Adam을 사용한다. Adam의 등장은 연산 자원이 부족해서 다양한 최적화 알고리즘을 일일이 테스트해 볼 수 없는 개인이나 작은 연구실 입장에서는 혁명이었다고 한다.

📚[딥 러닝의 역사]

Deep Learning's Most Important Ideas - A Brief Historical Review
Denny Britz, 2020

2012 AlexNet
CNN 구조, 최초로 딥 러닝을 이용해 ImageNet 대회 1등
2013 DQN
알파고를 개발한 DeepMind의 "Playing Atari with Deep Reinforcement Learning" 논문에 소개된 구조, 강화 학습의 등장
2014 Encoder/Decoder (Seq2Seq)
RNN 중 하나인 LSTM을 이용함. 기계 번역을 위해 고안된 모델.
2014 Adam Optimizer
어디에 써도 웬만하면 잘 돌아가는 최적화 알고리즘.
2015 GAN
이미지나 텍스트를 생성하는 모델. 생성/판별을 수행하는 두 개의 모델이 경쟁을 반복하면서 점점 더 진짜 같은 결과물을 생성한다.
2015 ResNet
이전의 레이어들을 다시 이용해 네트워크를 깊게 쌓아도 과적합이 발생하지 않고 좋은 결과를 얻을 수 있도록 한 CNN 모델.
2017 Transformer
2017년 구글이 발표한 "Attention is all you need" 논문에 소개됨. 어텐션 구조를 사용해 자연어를 처리하는 모델.
2018 BERT
fine-tuning을 위한 자연어 처리 모델로, 단어사전에 BERT 모델을 적용, 그 출력을 다른 자연어 처리 모델의 입력으로 사용한다.
2019 GPT-3
인간과 유사한 텍스트를 생성하는 대용량 언어 처리 모델.
2020 SimCLR
Self-supervised learning(자기지도학습)이 가능한 모델로, unlabeled 데이터를 학습에 사용할 수 있다.

👨‍👩‍👧‍👦[피어 세션]

지난 주에 팀원들과 협의한 대로 오늘은 5시에 시작했다. 강의 내용을 전부 소화하고 만나려고 했지만 colab과 vs code를 연동하는 데 시간을 엄청나게 써 버려서 강의를 많이 듣지 못했다. 분명 단계별로 따라 했는데... 한참 씨름하다가 아예 다 삭제하고 다시 깔아서 되긴 됐다.

Jade

반가워용

이전 포스트

[Week 2-5] 📊데이터 시각화

다음 포스트