추가적인 학습이나 모델이 필요하지 않은 새로운 Preference Alignment: ORPO

jihyelee·2024년 5월 17일
0

up-to-date-ai

목록 보기
2/13

ORPO: Monolithic Preference Optimization without Reference Model (arXiv, 2024.03)

배경지식

  • Instruction-tuning
    • 모델이 자연어로 주어진 태스크 설명을 잘 따르도록 학습
      • 이전에 학습하지 않은(unseen) 태스크에 대해서도 잘 일반화할 수 있음
    • 하지만 모델이 해롭거나 도덕적이지 않은 응답을 생성할 가능성 존재
  • Preference alignment
    • 모델이 사람이 가치있게 여기는 부분들을 잘 따르도록 만들기 위해 선호 데이터를 활용해 추가 학습
    • e.g. RLHF(Reinforcement Learning with Human Feedback)
    • e.g. DPO(Direct Preference Optimization)

문제

  • 기존 Preference alignment 방법들의 한계
    • 여러 단계의 절차를 필요로 함
    • 일반적으로 별도의 참조 모델(reference model)과 SFT(Supervised fine-tuning)로 웜업하는 단계가 필요
  • Supervised fine-tuning (SFT)의 한계
    • preference alignment의 초기 단계로 자주 활용됨
    • 사전학습 모델을 원하는 도메인에 맞추는 역할을 수행 (=domain adaptation)
    • 하지만 그 과정에서 원치 않는 토큰이 생성될 가능성을 높임
    • 이는 SFT에 사용되는 Cross Entropy Loss가 원치 않는 생성에 페널티를 주지 못하기 때문

해결책

ORPO (Odds Ratio Preference Optimization)

  • 전통적인 NLL(negative log-likelihood)와 오즈비(odds ratio) 기반의 페널티를 통합한 새로운 loss
    • 선호되는 생성 방식과 비선호되는 응답을 구별하는 역할을 수행

오즈비

  • 인풋 x가 주어질 때, 아웃풋 y를 생성하는 평균 log likelihood

  • 인풋 x가 주어질 때 아웃풋 y를 생성할 odds
  • odds = k라고 한다면, 이는 모델이 y를 생성할 가능성이 y를 생성하지 않을 가능성보다 k배 높다는 뜻

  • 선택할(=선호하는) 응답 y_w, 거절할(=비선호하는) 응답 y_l이 주어질 때
  • 오즈비 OR은 모델이 y_l 대비 y_w을 생성할 가능성을 나타냄

ORPO의 objective function

  • supervised fine-tuning loss(L_sft)와 relative ratio loss(=L_or)의 결합

  • relative ratio loss는 log odds ratio를 log sigmoid function으로 감싸준 형태
  • 이러한 loss를 사용함으로써 잘못된 예측에 페널티를 줄 수 있으며, 선택할 응답과 거절할 응답을 대조시킬 수 있음

평가

모델

  • OPT 모델 (125M - 1.3B)
    • 보상 모델은 OPT-350M, OPT-1.3B 기반으로 학습 (RM-350M, RM-1.3B로 논문에 표기)
  • Phi-2 (2.7B)
  • Llama-2 (7B)
  • Mistral (7B)

데이터셋 (preference alignment)

  • HH-RLHF by Anthropic
  • Binarized UltraFeedback

평가 리더보드

  • AlpacaEval_1.0
    • GPT-4를 활용해 text-davinci-003이 생성한 응답보다 학습된 모델의 응답이 선호되는지 평가
  • AlpacaEval_2.0
    • GPT-4-turbo를 활용해 GPT-4가 생성한 응답보다 학습된 모델의 응답이 선호되는지 평가
  • MT-Bench
    • GPT-4를 사용해 멀티턴 대화에서 학습된 모델이 어려운 답을 가진 설명(instruction)을 따르는지 평가

평가 결과

  • ORPO로 학습한 경우 RLHF, DPO로 학습할 때보다 설명(instruction)을 따르는 능력이 향상

  • 보상 분포(reward distribution)의 경우 RLHF, DPO, ORPO와 같은 선호 최적화 알고리즘을 통해 긍정적인 방향으로 이동
  • OPRO의 경우 RLHF, DPO보다 더욱 좋은 결과
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab

0개의 댓글

관련 채용 정보