modesta.log
로그인
modesta.log
로그인
Large Language Models are Human-Level Prompt Engineers
jihyelee
·
2023년 5월 10일
팔로우
0
prompt
논문리뷰
0
prompt-engineering
목록 보기
12/18
Large Language Models are Human-Level Prompt Engineers
ICLR 2023
분야 및 배경지식
프롬프트 엔지니어링
자연어 hypothesis space에서 직접 instruction(설명)을 찾고 최적화하기 위한 다양한 연구가 존재
prompt generation: 적절한 프롬프트를 생성
prompt scoring: 프롬프트에 점수를 매김
prompt paraphrasing: 프롬프트의 단어나 토큰 등을 치환하거나 순서를 바꿔 개선
문제점
프롬프트의 질에 따라 태스크의 성능이 달라지나 좋은 프롬프트를 찾기란 어려움
대부분의 효과적인 프롬프트는 사람에 의해 직접 만들어짐
해결책
Automatic Prompt Engineer (APE)
좋은 프롬프트를 찾는 과정을 일종의 black-box optimization 문제로 상정
1. prompt generation: LLM으로 instruction(설명) 후보 생성
몇 개의 후보 프롬프트를 생성하는 단계
forward mode: instruction이 텍스트의 마지막에 위치한 형태
reverse mode: instruction이 텍스트 내 어디에나 위치 가능한 형태
custom: 어떠한 점수 계산 함수를 사용하느냐에 따라 효과적인 프롬프트가 달라질 수 있기 때문에, 이에 맞게 변형
2. prompt search: LLM으로 각 instruction의 점수 계산
후보 프롬프트들의 점수를 계산해 좋은 프롬프트를 선정하는 단계
점수 함수 (score function)
execution accuracy (실행 정확성)
생성한 instruction을 활용해 모델 예측을 수행할 때 얼마나 정확한 정답을 내놓는지에 대한 평가 기준
단순하게 맞추면 1, 아니면 0으로 계산되거나 태스크에 따라 변형이 존재
log probability (로그 확률)
바람직한 정답의 로그 확률
확률적인 점수 함수가 더욱 세세한(fine-grained) 시그널을 줄 수 있다는 가정 하에 사용
execution accuracy가 태스크의 테스트 성능과 더욱 잘 align된다고 함
효율적인 점수 평가를 위해, 학습 데이터셋의 일부를 가지고 전체 후보군에 대해 평가하고, 특정 기준(threshold)을 넘은 후보군에 대해서만 다시 다른 학습 데이터셋의 일부를 사용해서 평가하는 filtering scheme을 사용
3. prompt improvement: Monte Carlo search 활용해 프롬프트 개선
모델이 적절한 instruction 후보를 생성하지 못할 때를 대비해 다시 샘플링을 하는 반복적인 절차
현재 가장 좋은 후보군들 주변의 search space를 국지적으로 탐색하는 방식
하지만 기존 대비 미미한 개선만 이루어지기 때문에, 선택적으로 사용함 (default: 미사용)
평가
모델
InstructGPT
태스크
24개의 instruction induction task (
논문 링크
); zero-shot & few-shot in-context
BIG-Bench Instruction Induction
zero-shot chain-of-thought
TruthfulQA
의의
전반적으로 뛰어난 성능을 보였으며, 특히 대부분의 태스크에서 사람이 작성한 프롬프트보다 좋은 성능을 보임
한계
이전에 Instruction Induction 논문이 밝힌 것처럼 모델의 크기가 크며, 사람의 instruction을 따르도록 학습된 모델의 경우에 성능이 좋음
다양한 모델에 모두 적용 가능한 방법은 아님
prompt generation, prompt selection 등의 방식은 기존 연구를 차용하여 종합한 것일 뿐 novelty가 아쉬움
jihyelee
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab
팔로우
이전 포스트
TEMPERA: Test-Time Prompt Editing via Reinforcement Learning
다음 포스트
PromptGen: Automatically Generate Prompts using Generative Models
0개의 댓글
댓글 작성