Training language models to follow instructions with human feedback 찍먹리뷰

박채희·2023년 4월 10일

paper-small-review

목록 보기
2/6

Abstract

we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback.

-> 인간의 피드백에 따라 fine-tuning 함으로써 언어 모델을 광범위한 작업에 대해, 사용자 의도에 맞추는 방법을 보여줌!

Introduction

대형 언어 모델(LM)은 task의 몇 가지 예를 입력으로 제공하여 다양한 자연어 처리(NLP) task를 수행하도록 “prompt”될 수 있음
-> 그러나 이러한 모델은 사실을 꾸며내거나 편파적이거나 유해한 텍스트를 생성하거나 단순히 사용자 명령을 따르지 않는 것과 같은 의도하지 않은 동작을 표현하는 경우가 많음
-> 이는 최근 많은 대형 LM에서 사용되는 언어 모델링 목적 함수(다음 토큰 예측)가 “사용자의 지시를 유용하고 안전하게 따르기”라는 목표와 다르기 때문

따라서, 사용자의 의도에 따라 작동하는 언어 모델을 학습시키는 작업을 진행함

fine-tuning 접근 방식에 중점을 둠
-> 인간의 피드백을 통한 강화 학습 (RLHF)을 사용하여 GPT-3를 fine-tuning
-> 인간의 선호도를 reward로 사용하여 모델을 fine-tuning

결과)
레이블러는 GPT-3의 출력보다 InstructGPT 출력을 상당히 선호한다.
InstructGPT는 GPT-3보다 향상된 진실성을 보여준다.
InstructGPT는 GPT-3에 비해 유해성이 약간 개선되었지만 편견은 없다.
RLHF fine-tuning 절차를 수정하여 공개 NLP 데이터셋의 성능 회귀를 최소화할 수 있다.
InstructGPT는 학습 데이터를 생성하지 않은 “hold-out” 레이블러의 선호도에 대해 일반화된다.
공개 NLP 데이터셋은 언어 모델이 사용되는 방식을 반영하지 않는다.
InstructGPT는 RLHF fine-tuning 분포 외부의 명령에 대한 유망한 일반화를 보여준다.
InstructGPT는 여전히 간단한 실수를 범한다.
전반적으로, 본 논문의 결과는 인간의 선호도를 사용하여 대규모 언어 모델을 fine-tuning하면 광범위한 task에서 동작이 크게 개선되지만 안전성과 신뢰성을 개선하기 위해 많은 연구가 남아 있음을 나타낸다.

0개의 댓글