BERT는 모든 계층에서 왼쪽, 오른쪽 문맥의 unlabeled text로 부터 깊은 양방향 표현법을 사전 학습하기 위해 설계되었다.사전 학습된 BERT 모델은 추가적인 1개의 output layer만 추가하여 fine-tuning되고 넓은 범위의 task에서 SOTA
NLP 연구 분야의 큰 흐름 중 하나는 Attention Mechanism의 활용Encoder-Decoder 형식 보유Encoder가 특정 벡터로 정보를 저장하면 Decoder는 해당 정보를 이용해 Output 생성RNN 계열 모듈을 사용하지 않고 여러 개의 Atten