
📍 강의 자료 출처 : LG Aimers
사람이 일일이 해야 하는 Labeling 과정 없이
원시 data(별도의 추가적인 label이 없는 data)에서 일부를 가려놓고 입력했을 때 가려진 부분을 잘 복원 혹은 예측하도록 하여 주어진 데이터의 일부를 출력 대상으로 삼고 model을 학습하는 방식
예) 컴퓨터비전 분야에서의 in-painting task
대규모 data를 통한 자기지도학습 모델은 원하는 task를 해결하기 위해 transfer learning 형태로 활용될 수 있다.
transfer learning
: 한 분야의 문제를 해결하기 위해서 얻은 지식과 정보를 다른 문제를 푸는데 사용하는 방식→ 대량의 데이터셋으로 이미 학습이 되어있는 pretrained model을 앞단에 그대로 두고 뒷단에는 원하는 task를 수행하기 위한 새로운 layer를 추가하여 학습 속도를 개선할 수 있다.
: Pre-training of Deep Bidirectional Transformers for Language Understanding
Transformer model을 기반으로, BERT는 Transformer model에서의 Encoder 부분에 해당한다. masked language modeling & next sentence prediction 2가지 task로(= Bidirectional) 자가지도학습을 수행한다.

→ 각 단어별로 encoding된 hidden state vector가 생성될 것이고 그 vector를 output layer에 입력으로 넣어 2가지 task를 수행한다.
+) Position Embedding
: 기존에 주어지는 각각의 단어들의 입력 vector에 해당 단어가 몇번째 position에 나타났는가에 대한 정보를 더해주는 과정
+) Segment Embedding
: 해당 단어가 2개의 문장으로 구성된 입력 데이터 중 첫번째 문장에서 나온 것인지 두 번째 문장에서 나온 것인지에 대한 정보를 더해주는 과정
주어진 입력 문장에 대해 랜덤한 특정 비율을 사용하여 mask token으로 대체할지/말지에 대한 전처리를 수행한다.
예) 전체 100개의 단어가 있다면 15%만큼은 mask token으로 대체하여 해당 단어들 예측
단,
mask token으로 대체할 비율을
너무 작게 설정하면
→ 학습량에 비해 해결해야 할 예측 수가 적어 학습의 효율성이 떨어진다.
너무 크게 설정하면
→ 주어진 문장 상에 온전히 남아 있는 단어의 수가 얼마 되지 않아 학습에 필요한 단어 수가 부족할 수 있다.
: 두 문장을 주고 두 번째 문장이 코퍼스 내에서 첫 번째 문장의 바로 다음에 오는지 여부를 예측하도록 하는 방식
: Generative Pre-Trained Transformer
→ 대규모의 text data로부터 문장들을 가져오고 단어 단위로 입력하였을 때 다음 단어를 실시간으로 예측하는 모델