언어 모델(Language Model, LM)의 기본 학습 목표
인간이 원하는 출력
의도와 맥락 이해:
가치 및 윤리적 고려:
목표의 차이:
결과적인 문제점:
기본 Objective의 영향력:
완전한 Alignment의 어려움:
예시 1:
예시 2:
Reinforcement Learning from Human Feedback (RLHF):
안전성과 윤리성 강화: