Large Language Models are Human-Level Prompt Engineers

jihyelee·2023년 5월 10일
0

prompt-engineering

목록 보기
12/18

Large Language Models are Human-Level Prompt Engineers
ICLR 2023

분야 및 배경지식

  • 프롬프트 엔지니어링
    • 자연어 hypothesis space에서 직접 instruction(설명)을 찾고 최적화하기 위한 다양한 연구가 존재
    • prompt generation: 적절한 프롬프트를 생성
    • prompt scoring: 프롬프트에 점수를 매김
    • prompt paraphrasing: 프롬프트의 단어나 토큰 등을 치환하거나 순서를 바꿔 개선

문제점

  • 프롬프트의 질에 따라 태스크의 성능이 달라지나 좋은 프롬프트를 찾기란 어려움
    • 대부분의 효과적인 프롬프트는 사람에 의해 직접 만들어짐

해결책

Automatic Prompt Engineer (APE)

  • 좋은 프롬프트를 찾는 과정을 일종의 black-box optimization 문제로 상정

1. prompt generation: LLM으로 instruction(설명) 후보 생성

  • 몇 개의 후보 프롬프트를 생성하는 단계
    • forward mode: instruction이 텍스트의 마지막에 위치한 형태
    • reverse mode: instruction이 텍스트 내 어디에나 위치 가능한 형태
    • custom: 어떠한 점수 계산 함수를 사용하느냐에 따라 효과적인 프롬프트가 달라질 수 있기 때문에, 이에 맞게 변형

2. prompt search: LLM으로 각 instruction의 점수 계산

  • 후보 프롬프트들의 점수를 계산해 좋은 프롬프트를 선정하는 단계
  • 점수 함수 (score function)
    • execution accuracy (실행 정확성)
      • 생성한 instruction을 활용해 모델 예측을 수행할 때 얼마나 정확한 정답을 내놓는지에 대한 평가 기준
      • 단순하게 맞추면 1, 아니면 0으로 계산되거나 태스크에 따라 변형이 존재
    • log probability (로그 확률)
      • 바람직한 정답의 로그 확률
      • 확률적인 점수 함수가 더욱 세세한(fine-grained) 시그널을 줄 수 있다는 가정 하에 사용
    • execution accuracy가 태스크의 테스트 성능과 더욱 잘 align된다고 함
  • 효율적인 점수 평가를 위해, 학습 데이터셋의 일부를 가지고 전체 후보군에 대해 평가하고, 특정 기준(threshold)을 넘은 후보군에 대해서만 다시 다른 학습 데이터셋의 일부를 사용해서 평가하는 filtering scheme을 사용

3. prompt improvement: Monte Carlo search 활용해 프롬프트 개선

  • 모델이 적절한 instruction 후보를 생성하지 못할 때를 대비해 다시 샘플링을 하는 반복적인 절차
  • 현재 가장 좋은 후보군들 주변의 search space를 국지적으로 탐색하는 방식
  • 하지만 기존 대비 미미한 개선만 이루어지기 때문에, 선택적으로 사용함 (default: 미사용)

평가

  • 모델
    • InstructGPT
  • 태스크
    • 24개의 instruction induction task (논문 링크); zero-shot & few-shot in-context
    • BIG-Bench Instruction Induction
    • zero-shot chain-of-thought
    • TruthfulQA

의의

  • 전반적으로 뛰어난 성능을 보였으며, 특히 대부분의 태스크에서 사람이 작성한 프롬프트보다 좋은 성능을 보임

한계

  • 이전에 Instruction Induction 논문이 밝힌 것처럼 모델의 크기가 크며, 사람의 instruction을 따르도록 학습된 모델의 경우에 성능이 좋음
    • 다양한 모델에 모두 적용 가능한 방법은 아님
  • prompt generation, prompt selection 등의 방식은 기존 연구를 차용하여 종합한 것일 뿐 novelty가 아쉬움
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP), AI Researcher at LG CNS AI Lab

0개의 댓글