RLPROMPT: Optimizing Discrete Text Prompts with Reinforcement Learning

jihyelee·2023년 5월 18일

prompt-engineering

목록 보기

10/18

RLPrompt

강화학습을 사용한 모델을 이용하여 최적화된 자연어 프롬프트를 생성하는 방법
토큰을 모두 생성한 이후 전체 프롬프트에 대해 태스크 reward를 계산, 이를 활용해 policy 업데이트
- pi for policy, z for prompt, R for reward, x for input
학습 효율성과 강화학습의 성공을 위해 두 가지 reward engineering 도입
- input-specific z-score reward (인풋-특화 z-score reward)
  - reward를 특정 input에 대한 평균과 표준편차를 활용해 정규화하여, 특정 input에 대한 z-score를 계산
- piecewise reward
  - adversarial prompt의 영향을 줄이고 태스크의 우선순위와 강건성을 더욱 잘 표현하기 위함
    - 텍스트 분류의 경우, 레이블에 대한 확률을 활용하여 [Gap_z(c) = 프롬프트가 정답 레이블을 예측할 확률 - 정답이 아닌 레이블을 예측할 확률의 최대값]으로 정의, Gap_z(c)가 0보다 크다면 correct = 1을 부여
    - 텍스트 스타일 변환의 경우, content와 style을 바탕으로 reward function 정의
    - 자세한 식은 논문의 Appendix 참고

여러 모델에 대해 동시에 사용할 수 있는 자연어 프롬프트를 생성
모델의 gradient를 알지 못해도 프롬프트 공간을 효율적으로 탐색 가능
- gradient 연산은 비용이 많이 듦
- 최근 모델의 추론 API만 사용할 수 있는 경우가 빈번 (gradient 공개 X)

생성된 프롬프트가 문법적으로 옳지 않고 무의미한 단어의 나열로 이루어짐
- 자연어 프롬프트의 주요한 의의가 해석 가능성인데, 최적화된 프롬프트는 해석 가능성이 떨어짐
GPT-3와 같은 큰 모델에서 적용 가능한지 확인되지 않음

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab