[2주차] 8.9 월

William JO·2021년 8월 9일
0

✏️DL Basic

Key Components of DL

  1. Data
  2. Model
  3. Loss Function
    • Loss Function이 감소한다 해서 원하는 값을 항상 이룬다는 보장은 없다.
      → 예컨데, linear regression 문제에서 data에 noise가 많이 껴있을 때, MSE의 제곱항은 outlier에 큰 영향을 받게 되어 error를 큰 폭으로 줄이게 된다. 이럴 경우 MSE 대신 L1-norm 혹은 다른 Loss Function을 써야 한다. 특정 task의 특정 Loss Function이 항상 정답은 아니다.
    • Loss Function이 어떤 성질을 갖고, 이게 왜 내가 원하는 결과를 얻어낼 수 있는지 인지하고 설정해야 한다.
  4. Optimizer



Historical Review

2012

  • AlexNet: 2012 ILSVRC 1등; 이미지 대회에서 처음으로 1등한 DL Model. 이후로는 DL Model이 항상 1등해왔다.

2013

  • DQN: RL/DL Model. 알파고의 메인 알고리즘. 오늘 날의 DeepMind를 있게 한 장본인!

2014

  • Encoder / Decoder: Neural Machine Translation(NMT) Model
  • Adam Optimizer: 많이 쓰이는 optimizer. 웬만한 상황에서 optimizing이 잘된다.
    → 구글 논문을 보면, 50/100 epochs에서 learning rate을 줄인다. 전체 학습 횟수에서 75%가 지난 시점에선 또 다시 줄인다. 잘 되는 이유는 모르지만 그냥 잘된다. transformer도 비슷하게 특이한 learning rate scheduling을 사용한다. 이와 같은 learning rate configuration이 가능하려면 수 많은 실험을 진행해야 하는데, 많아봤자 2, 3개의 gpu를 갖고 있는 일반인들은 불가능하다.

2015

  • ⭐️Generative Adversarial Network(GAN): TBD
  • Residual Networks: DNN의 대표적인 예(paradigm shift). 보통 20 layers가 넘어가면 성능이 안나와 그 이하로 모델을 구성했지만, ResNet 이후로 100 layers 정도의 NN depth를 늘릴 수 있었다.

2017

  • ⭐️Transformer: 기존 RNN 계열 Model 대부분 대체.

2018

  • BERT(fine-tuned NLP models): wikipedia 같은 big dataset으로 pre-train 후, domain 및 task에 맞게 fine-tune.

2019

  • BIG Language Models(GPT-3): fine-tuned NLP model의 끝판왕. fine-tuning을 통해 다양한 sequence model을 만들 수 있다. 굉장히 많은 parameters.

2020

  • Self Supervised Learning: train dataset외에 label을 모르는 unsupervised data를 활용해서 학습
    → 기성의 이미지 분류는 한정된 train dataset에 model 혹은 loss를 수정해가며 성능을 올렸지만, SimCLR은 품질 좋은 visual representation을 train dataset에 추가하여 성능을 끌어올린다.
    → SimCLR 성공 이후 수 많은 self supervised learning algorithm이 나왔다.
  • Self Supervised Data Sampling: 고도의 domain and task knowledge를 활용해 simulation으로 data augmentation.

0개의 댓글

관련 채용 정보