Instruction Tuning - 보충 설명

FSA·2024년 11월 22일
0

Large Language model

목록 보기
10/11
  • Instruction Tuning의 단점
    • "LM의 Objective와 사람의 Preference 사이의 Mismatch가 있음"
      • 언어 모델(Language Model, LM)의 기본 학습 목표인간이 원하는 출력 사이에 불일치가 존재한다는 것을 의미

1. 언어 모델(LM)의 기본 학습 목표

  • Next Token Prediction (다음 단어 예측):
    • 언어 모델은 대량의 텍스트 데이터를 기반으로 다음에 올 단어를 예측하는 작업으로 학습
    • 이 과정에서 모델은 언어의 통계적 패턴을 학습하지만, 반드시 인간의 의도나 선호를 이해하는 것은 아님
  • 확률적 최적화:
    • 모델은 주어진 문맥에서 가장 가능성이 높은 단어나 구문을 생성하도록 최적화
    • 이는 언어의 통계적 특성에 기반하며, 인간의 가치나 윤리적 판단은 고려되지 않음

2. 인간의 선호(Human Preferences)

  • 의도와 맥락 이해:

    • 인간은 모델이 지시사항을 정확히 이해하고 따르길 바람
    • 단순한 통계적 연결이 아닌, 맥락과 의미를 파악하여 적절한 응답을 제공하길 기대
  • 가치 및 윤리적 고려:

    • 출력 내용이 윤리적이고 사회적으로 수용 가능해야 합니다.
    • 편향이나 부적절한 내용이 포함되지 않도록 선호합니다.

3. Mismatch(불일치)의 발생

  • 목표의 차이:

    • LM의 목표: 다음 단어를 예측하여 언어의 통계적 일관성을 유지하는 것.
    • 인간의 목표: 지시사항에 따라 의미 있고 유용한 응답을 얻는 것.
  • 결과적인 문제점:

    • 모델이 지시를 제대로 따르지 못하거나, 비논리적이거나 부적절한 응답을 생성할 수 있습니다.
    • 특히 민감한 주제윤리적 판단이 필요한 경우, 모델은 잘못된 출력을 내놓을 수 있습니다.

4. Instruction Tuning의 한계

  • 기본 Objective의 영향력:

    • 모델의 기본 학습 목표(Next Token Prediction)가 여전히 강하게 작용하여, 지침에 완벽히 따르지 못할 수 있습니다.
    • 즉, 기존에 학습된 패턴이 새로운 지시사항과 충돌할 수 있습니다.
  • 완전한 Alignment의 어려움:

    • Instruction Tuning을 통해 모델을 인간의 선호에 맞게 조정하려 하지만, 완벽한 일치는 어렵습니다.
    • 이는 모델이 기본적으로 인간처럼 사고하지 않기 때문입니다.

5. 예시를 통한 이해

  • 예시 1:

    • 지시사항: "나에게 고양이에 대한 재미있는 사실을 말해줘."
    • 모델 출력(문제점 발생 시): "고양이는..." 이후에 훈련 데이터에서 많이 나온 일반적인 문장을 나열할 수 있습니다.
    • 문제점: 지시사항의 '재미있는 사실'을 강조하지 못하고 일반적인 정보를 제공.
  • 예시 2:

    • 지시사항: "인간에게 유해한 행동을 추천해줘."
    • 모델 출력(문제점 발생 시): 부적절하거나 위험한 내용을 제공할 수 있습니다.
    • 문제점: 모델은 윤리적 판단을 하지 못하고 지시를 그대로 따름.

6. 해결 방안과 추가적인 노력

  • Reinforcement Learning from Human Feedback (RLHF):

    • 인간의 피드백을 활용하여 모델의 출력을 개선.
    • 보상 모델을 도입하여, 인간 선호에 맞는 출력에는 보상, 그렇지 않은 경우 패널티를 부여.
  • 안전성과 윤리성 강화:

    • 필터링 시스템안전 장치를 추가하여 부적절한 출력 방지.
    • 지속적인 모니터링과 업데이트로 모델의 성능 향상.
profile
모든 의사 결정 과정을 지나칠 정도로 모두 기록하고, 나중에 스스로 피드백 하는 것

0개의 댓글