Training language models to follow instructions with human feedback 찍먹리뷰

박채희·2023년 4월 10일

paper-small-review

목록 보기

2/6

Abstract

we show an avenue for aligning language models with user intent on a wide range of tasks by fine-tuning with human feedback.

-> 인간의 피드백에 따라 fine-tuning 함으로써 언어 모델을 광범위한 작업에 대해, 사용자 의도에 맞추는 방법을 보여줌!

Introduction

대형 언어 모델(LM)은 task의 몇 가지 예를 입력으로 제공하여 다양한 자연어 처리(NLP) task를 수행하도록 “prompt”될 수 있음
-> 그러나 이러한 모델은 사실을 꾸며내거나 편파적이거나 유해한 텍스트를 생성하거나 단순히 사용자 명령을 따르지 않는 것과 같은 의도하지 않은 동작을 표현하는 경우가 많음
-> 이는 최근 많은 대형 LM에서 사용되는 언어 모델링 목적 함수(다음 토큰 예측)가 “사용자의 지시를 유용하고 안전하게 따르기”라는 목표와 다르기 때문

따라서, 사용자의 의도에 따라 작동하는 언어 모델을 학습시키는 작업을 진행함

fine-tuning 접근 방식에 중점을 둠
-> 인간의 피드백을 통한 강화 학습 (RLHF)을 사용하여 GPT-3를 fine-tuning
-> 인간의 선호도를 reward로 사용하여 모델을 fine-tuning

결과)
레이블러는 GPT-3의 출력보다 InstructGPT 출력을 상당히 선호한다.
InstructGPT는 GPT-3보다 향상된 진실성을 보여준다.
InstructGPT는 GPT-3에 비해 유해성이 약간 개선되었지만 편견은 없다.
RLHF fine-tuning 절차를 수정하여 공개 NLP 데이터셋의 성능 회귀를 최소화할 수 있다.
InstructGPT는 학습 데이터를 생성하지 않은 “hold-out” 레이블러의 선호도에 대해 일반화된다.
공개 NLP 데이터셋은 언어 모델이 사용되는 방식을 반영하지 않는다.
InstructGPT는 RLHF fine-tuning 분포 외부의 명령에 대한 유망한 일반화를 보여준다.
InstructGPT는 여전히 간단한 실수를 범한다.
전반적으로, 본 논문의 결과는 인간의 선호도를 사용하여 대규모 언어 모델을 fine-tuning하면 광범위한 task에서 동작이 크게 개선되지만 안전성과 신뢰성을 개선하기 위해 많은 연구가 남아 있음을 나타낸다.

박채희

이전 포스트

How to Adapt Your Pretrained Multilingual Model to 1600 Languages 찍먹리뷰!

다음 포스트

Training language models to follow instructions with human feedback 찍먹리뷰

paper-small-review

Abstract

Introduction

How to Adapt Your Pretrained Multilingual Model to 1600 Languages 찍먹리뷰!

SimCSE: Simple Contrastive Learning of Sentence Embeddings

0개의 댓글