Instruction Tuning - 보충 설명

FSA·2024년 11월 22일

Large Language model

목록 보기

10/14

Instruction Tuning의 단점
- "LM의 Objective와 사람의 Preference 사이의 Mismatch가 있음"
  - 언어 모델(Language Model, LM)의 기본 학습 목표와 인간이 원하는 출력 사이에 불일치가 존재한다는 것을 의미

1. 언어 모델(LM)의 기본 학습 목표

Next Token Prediction (다음 단어 예측):
- 언어 모델은 대량의 텍스트 데이터를 기반으로 다음에 올 단어를 예측하는 작업으로 학습
- 이 과정에서 모델은 언어의 통계적 패턴을 학습하지만, 반드시 인간의 의도나 선호를 이해하는 것은 아님
확률적 최적화:
- 모델은 주어진 문맥에서 가장 가능성이 높은 단어나 구문을 생성하도록 최적화
- 이는 언어의 통계적 특성에 기반하며, 인간의 가치나 윤리적 판단은 고려되지 않음

2. 인간의 선호(Human Preferences)

의도와 맥락 이해:
- 인간은 모델이 지시사항을 정확히 이해하고 따르길 바람
- 단순한 통계적 연결이 아닌, 맥락과 의미를 파악하여 적절한 응답을 제공하길 기대
가치 및 윤리적 고려:
- 출력 내용이 윤리적이고 사회적으로 수용 가능해야 합니다.
- 편향이나 부적절한 내용이 포함되지 않도록 선호합니다.

3. Mismatch(불일치)의 발생

목표의 차이:
- LM의 목표: 다음 단어를 예측하여 언어의 통계적 일관성을 유지하는 것.
- 인간의 목표: 지시사항에 따라 의미 있고 유용한 응답을 얻는 것.
결과적인 문제점:
- 모델이 지시를 제대로 따르지 못하거나, 비논리적이거나 부적절한 응답을 생성할 수 있습니다.
- 특히 민감한 주제나 윤리적 판단이 필요한 경우, 모델은 잘못된 출력을 내놓을 수 있습니다.

4. Instruction Tuning의 한계

기본 Objective의 영향력:
- 모델의 기본 학습 목표(Next Token Prediction)가 여전히 강하게 작용하여, 지침에 완벽히 따르지 못할 수 있습니다.
- 즉, 기존에 학습된 패턴이 새로운 지시사항과 충돌할 수 있습니다.
완전한 Alignment의 어려움:
- Instruction Tuning을 통해 모델을 인간의 선호에 맞게 조정하려 하지만, 완벽한 일치는 어렵습니다.
- 이는 모델이 기본적으로 인간처럼 사고하지 않기 때문입니다.

5. 예시를 통한 이해

예시 1:
- 지시사항: "나에게 고양이에 대한 재미있는 사실을 말해줘."
- 모델 출력(문제점 발생 시): "고양이는..." 이후에 훈련 데이터에서 많이 나온 일반적인 문장을 나열할 수 있습니다.
- 문제점: 지시사항의 '재미있는 사실'을 강조하지 못하고 일반적인 정보를 제공.
예시 2:
- 지시사항: "인간에게 유해한 행동을 추천해줘."
- 모델 출력(문제점 발생 시): 부적절하거나 위험한 내용을 제공할 수 있습니다.
- 문제점: 모델은 윤리적 판단을 하지 못하고 지시를 그대로 따름.

6. 해결 방안과 추가적인 노력

Reinforcement Learning from Human Feedback (RLHF):
- 인간의 피드백을 활용하여 모델의 출력을 개선.
- 보상 모델을 도입하여, 인간 선호에 맞는 출력에는 보상, 그렇지 않은 경우 패널티를 부여.
안전성과 윤리성 강화:
- 필터링 시스템과 안전 장치를 추가하여 부적절한 출력 방지.
- 지속적인 모니터링과 업데이트로 모델의 성능 향상.

모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

이전 포스트

Instruction Tuning

다음 포스트

RLHF : Reinforcement Learning with Human Feedback

0개의 댓글