chatGPT 원리

김지예·2023년 7월 22일

Data

목록 보기

2/2

사람의 피드백을 이용해 강화학습 시킨 RLHF(Reinforcement Learning Human Feedback)

최종 성능평가도 사람이 함
평가 항목
1. 유용성, 질문의 의도를 적절히 파악하여 답변하였는지
2. 진실성, 데이터를 조합해 거짓 답변을 내놓았는지
3. 무해성, 폭력, 인종차별 등과 같은 편향된 답변은 없는지

배낭여행자 도로시, 주변을 살피며 걷는 중입니다. (소개글을 참고해 주세요 찡긋)

2023년 7월 22일

좋은 정보 감사합니다

답글 달기