범용적인 태스크 수행이 가능한 Language Model
-> 사전학습 데이터 및 파라미터 수가 매우 큰 모델의 종합적 지칭
Downstream 태스크 별 Finetune을 통해 목적 별 모델 구축
-> 하나의 모델을 사용해 하나의 태스크 해결
사전학습 및 Finetune을 통해 범용 목적 모델 구축
-> 하나의 모델을 사용해 다양한 태스크 해결
모델 추가 학습 X
모델의 능력이 충분한 경우, Demonstraion 을 통해 성능 향상 가능!!
• Encoder – Decoder 구조
입력 이해와 문장 생성 모델 분리
입력 이해 : Encoder를 통해 처리
문장 생성 : Decoder를 통해 처리
• Decoder Only 구조
단일 모델을 통해 이해 및 생성
① Encoder-Decoder 구조
Span Corruption 과정
1. 입력 문장 중 임의의 Span을 Masking
2. Masking 시 각 Masking Id 부여
3. Span Corruption된 문장을 Encoder 입력
4. Masking Id와 복원 문장을 Decoder 입력
5. Decoder는 복원된 문장 생성
• 입력 문장 이해 및 문장 생성 능력 학습
② Decoder Only 구조
• Language Modeling
• GPT-1에서 제안된 Pretrain Task
-> 입력된 토큰을 기반으로 다음 토큰 예측 수행
Language Modeling 과정
1. 문장 토큰 단위로 입력
2. 매 토큰마다 다음 토큰을 예측하도록 학습
• 이전 입력을 바탕으로 다음 토큰 생성 능력 학습
원시 데이터 내 학습 불필요 데이터 존재하면, 필터링.
Memorization : LLM이 코퍼스 내 존재하는 데이터를 암기하는 현상
->정제 작업을 통해 학습 효율 극대화할 필요있음
-> 개인정보 같은 것도 정제작업을 통해 학습 방지할 필요 있음.
다양한 문장 생성 능력 보유
대형 코퍼스 : 온라인 상 존재하는 혐오/차별/위험 표현 포함
• LLM 학습에 반영
• 혐오/차별/위험 표현 생성 가능
• LLM의 활용 및 서비스화 걸림돌
=> 따라서 Safety 적용( LLM이 생성한 표현이 사회 통념상 혐오/위험/차별적 표현이 아니어야 함)
이러한 과정을 Instruction Tuning 이라고 함
Instruction : 사용자의 광범위한 입력에 대해
• Safety : 안전하면서
• Helpfulness : 도움이 되는
• 적절한 답변을 하도록 Fine-Tune하는 과정
Instrucion Tuning 은 3단계로 구성
SFT -> Reward Modeling -> RLHF
LLM에게 사용자 입력에 적절히 답변하도록 지도학습
Step 2 : Reward Modeling
LLM의 답변에 대한 사람의 선호도 모델링
-> Prompt와 Demonstration을 입력으로 Rating을 산출하도록 학습
Step 3 : RLHF
LLM이 사람의 선호도가 높은 답변을 생성하도록 학습
->사람의 선호도 : Reward Model이 높은 점수를 부여하는 답변(PPO 알고리즘 이용)
사용자 지시(Instruction) 호응도 상승
거짓 정보(Hallucination 생성 빈도 감소
LLM & Instruction Tuning