시리즈

1주차 스터디

1.[1주차]: GPT-1(2018) : Improving Language Understanding by Generative Pre-Training

오늘은 2018년에 나온 GPT모델 논문에 대해 소개하려고 합니다.요약에 따르면 unlabel 데이터는 매우 많은 반면, label데이터는 매우 부족하다고 합니다.그래서 unlabel 데이터를 활용하기 위해 모델을 two-stage로 학습을 했다고 합니다.방대한 unl

2024년 10월 9일

2.Deep Residual Learning for Image Recognition (2015)

저는 Resnet에 대한 개념을 2015년에 최초로 발표한 논문을 리뷰해보도록 하겠습니다. 논문의 흐름대로 분석해보았습니다.기존 이미지 분류 모델들(CNN, VGGNet 등)의 문제점은 모델이 깊어질수록 학습시키기 어렵다는 점이었다. 이 논문에서는 이 문제점을 해결하기

2024년 10월 9일

3.Transformer(2017): Attention Is All You Need

전통적인 방식의 RNN 또는 LSTM과 같은 신경 망을 사용한 seq2seq 는 순차적 데이터를 처리할 수 있기 때문에 번역 또는 언어 모델링과 같은 작업에 사용되어 왔으나 이러한 모델은 입력 시퀀스가 길어질수록 Long-Term Dependency 와 Vanishin

2024년 10월 9일