Auto-regressive model : decoder 모듈만 사용함, 자기 자신을 input 으로 넣어 다음 단어를 예측하는 것(generation task 에 유용)
ex) GPT, GPT-2
Auto-encoding model : encoder 모듈만 사용함, 양방향(bi-directional) attention 학습, encoding representation 학습, 문장 분류, 개체명 인식, 단어 분류, QA 등 문장에 대한 전반적 이해 필요한 task 에 유용
ex) BERT