1. 사전학습
- LLM의 자연어 이해와 일반상식을 학습하여 사람과 LLM이 대화가 가능할 수 있도록 학습
- ex) Bloomberg Dataset에서 C4 Dataset
- Self-Supervised Learning
- 일반적인 기계학습은 X(input), Y(Target)를 분리하여 학습시킴 --> 지도학습
- 학습데이터가 방대한 경우, 지도학습은 많은 비용과 시간 소모
- 따라서, 데이터 일부를 변형(마스킹, 노이징)과 데이터 일부의 다음에 올 단어 예측 등으로 학습
2. Fine-Tuning
- 특정 Domain Task를 적절히 수행할 수 있도록 Pre-trained Model에 추가로 학습
- 대표적인 PEFT에는 LoRA가 있음.
3. Instruction Tuning
- 지시문과 입력 데이터를 입력, 출력 데이터를 하나의 쌍으로 활용하여 미세조정.
- 즉, 입력과 출력을 포함한 instruction Dataset을 통해 fine-tuning을 진행
- 이를 통해 Zero-shot 성능을 높일 수 있게 됨.
- Instruction dataset의 형태
- Input: “Provide a list of the most spoken languages”
- Output: “English, French”
4. Dataset 구축의 필요성
- 세밀하고 다양한 학습 Dataset을 필요로 함.
- 형태적 다양성, 다양한 언어 사용을 충족시킬 수 있어야 함.
- 특히, 한국어는 다양한 조사 및 어미를 가지고 있어서 다양성이 중요함.
5. Deep dive into LLM
- 질문? 만약 Fake news Dataset을 LLM의 Pre-Train Dataset으로 활용할 수 있나?
- 답?
- LLM은 마지막 단어 다음에 올 가장 높은 확률의 단어를 선택하는 것.
- 따라서 이를 통해 학습을 하면 잘못된 답변을 할 가능성이 있음.