Large Language Models are Human-Level Prompt Engineers

jihyelee·2023년 5월 10일

prompt-engineering

목록 보기

12/18

프롬프트 엔지니어링
- 자연어 hypothesis space에서 직접 instruction(설명)을 찾고 최적화하기 위한 다양한 연구가 존재
- prompt generation: 적절한 프롬프트를 생성
- prompt scoring: 프롬프트에 점수를 매김
- prompt paraphrasing: 프롬프트의 단어나 토큰 등을 치환하거나 순서를 바꿔 개선

Automatic Prompt Engineer (APE)

몇 개의 후보 프롬프트를 생성하는 단계
- forward mode: instruction이 텍스트의 마지막에 위치한 형태
- reverse mode: instruction이 텍스트 내 어디에나 위치 가능한 형태
- custom: 어떠한 점수 계산 함수를 사용하느냐에 따라 효과적인 프롬프트가 달라질 수 있기 때문에, 이에 맞게 변형

후보 프롬프트들의 점수를 계산해 좋은 프롬프트를 선정하는 단계
점수 함수 (score function)
- execution accuracy (실행 정확성)
  - 생성한 instruction을 활용해 모델 예측을 수행할 때 얼마나 정확한 정답을 내놓는지에 대한 평가 기준
  - 단순하게 맞추면 1, 아니면 0으로 계산되거나 태스크에 따라 변형이 존재
- log probability (로그 확률)
  - 바람직한 정답의 로그 확률
  - 확률적인 점수 함수가 더욱 세세한(fine-grained) 시그널을 줄 수 있다는 가정 하에 사용
- execution accuracy가 태스크의 테스트 성능과 더욱 잘 align된다고 함
효율적인 점수 평가를 위해, 학습 데이터셋의 일부를 가지고 전체 후보군에 대해 평가하고, 특정 기준(threshold)을 넘은 후보군에 대해서만 다시 다른 학습 데이터셋의 일부를 사용해서 평가하는 filtering scheme을 사용

모델
- InstructGPT
태스크
- 24개의 instruction induction task (논문 링크); zero-shot & few-shot in-context
- BIG-Bench Instruction Induction
- zero-shot chain-of-thought
- TruthfulQA

이전에 Instruction Induction 논문이 밝힌 것처럼 모델의 크기가 크며, 사람의 instruction을 따르도록 학습된 모델의 경우에 성능이 좋음
- 다양한 모델에 모두 적용 가능한 방법은 아님
prompt generation, prompt selection 등의 방식은 기존 연구를 차용하여 종합한 것일 뿐 novelty가 아쉬움

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab