사람의 피드백을 이용해 강화학습 시킨 RLHF(Reinforcement Learning Human Feedback)
최종 성능평가도 사람이 함 평가 항목 1. 유용성, 질문의 의도를 적절히 파악하여 답변하였는지 2. 진실성, 데이터를 조합해 거짓 답변을 내놓았는지 3. 무해성, 폭력, 인종차별 등과 같은 편향된 답변은 없는지
좋은 정보 감사합니다
좋은 정보 감사합니다