
오늘은 2018년에 나온 GPT모델 논문에 대해 소개하려고 합니다.요약에 따르면 unlabel 데이터는 매우 많은 반면, label데이터는 매우 부족하다고 합니다.그래서 unlabel 데이터를 활용하기 위해 모델을 two-stage로 학습을 했다고 합니다.방대한 unl

저는 Resnet에 대한 개념을 2015년에 최초로 발표한 논문을 리뷰해보도록 하겠습니다. 논문의 흐름대로 분석해보았습니다.기존 이미지 분류 모델들(CNN, VGGNet 등)의 문제점은 모델이 깊어질수록 학습시키기 어렵다는 점이었다. 이 논문에서는 이 문제점을 해결하기

전통적인 방식의 RNN 또는 LSTM과 같은 신경 망을 사용한 seq2seq 는 순차적 데이터를 처리할 수 있기 때문에 번역 또는 언어 모델링과 같은 작업에 사용되어 왔으나 이러한 모델은 입력 시퀀스가 길어질수록 Long-Term Dependency 와 Vanishin