Deepmind Sparraw: Improving alignment of dialogue agents via targeted human judgements

nawnoes·2023년 1월 20일
0

NLP

목록 보기
45/45
post-thumbnail

Abstract

외부 정보를 활용하는 대화모델인 Sparrow를 공개했다. Sparrow는 prompted language model 베이스라인과 비교해서 보다 정확하고 무해하며 사람에게 도움이 되는 대화 에이전트이다.

Sparrow는 human feedback으로부터 강화학습을 적용했다. 강화학습은 모델이 보다 도움이 되고 무해한 발화를 할수 있도록 하고, 좋은 대화를 위한 필요한 사항들을 모델이 따라야하는 자연어로 된 룰로 나누고 평가자들에게 각각 질문한다. 이런 방법은 타겟된 에이전트의 행동에 대한 사람들의 평가를 수집할 수 있음을 보이고 보다 효율적인 rule-conditional reward model을 만들 수 있게 한다.

Sparrow는 모델에 대해 preference judgements를 수집할때, 사실적인 주장을 뒷바침하는 출처의 evidence를 제공한다. 사실과 관련된 질문에 대해 Sparrow가 샘플된 답변의 78%을 지원한다. 사람들이 평가를 진행했을때 Sparrow는 베이스라인 보다 사람들이 선호한다. 선호한다. 사람에 의한 adversarial probing에 보다 탄력적인것을 보여준다.

Introduction

  • 많은 머신러닝 시스템은 그 시스템의 objtective를 계산하는 프로그램이 없는 세팅으로 모델들이 사용되고 있다. ← 여기서 시스템 오브젝티브란 리워드를 계산하는것으로 보임.
    • 여기서 system’s objective란 무엇인가?
    • reward 모델을 계산하고 평가하는것?
  • 이런 프로그램을 활용한 리워드 부여하는 방식에 대한 단점은 사람을 통한 강화학습에 대한 동기를 강하게 한다.
  • 이런 human feedback을 활용한 학습에서는 사람 평가자들의 역할이 중요한 부분을 담당한다.
  • 하지만 이런 human supervision은 사람들에게 정보와 동기가 잘 주어졌을때, 그리고 데이터 수집 환경이 명확하고 단단할때 human error에 대해 잘 동작한다.
  • Sparraw 논문에서는 helpful, correct, harmless information-seeking dialogues에 대한 태스크에 대한 리워드로 human judgements를 사용하는 연구를 진행한다.
  • 이때 대화는 사람과 대화 에이전트 간의 대화로 정의하며, 대화 에이전트는 유저들이 제기한 물음에 대한 답변을 하는것을 목표로 한다.
  • information-seeking dialogue에 집중하면서 chit-chat 대화라는 불명확한 단어보다 성공에 대한 context와 criteria이 보다 명확하게 정의할 수 있다. 그리고 harm 항목에 대한 항목들도 보다 쉽게 결정할 수 있다.

Contribution

  1. 사람의 평가를 위한 구체적이고 세부적인 룰제시

    • 기존 방법론들과 다르게 “위협이 되는”, “금융과 관련 조언” 등의 세세한 가이드를 데이터 레이블러에게 제공
  2. preference rate는 최대화 하고, rule violation을 최소화 하기위한 Multi-Objective RLHF

    • 통합된 하나의 모델을 학습시키기 위해 다양한 테크닉들을 결합해서 활용한다.
  3. correctness와 verifiability를 개선하기 위한 Inline evidence

    • GopherCite의 방법론을 적용 및 확장
  4. 대화 모델의 결과에 대한 세밀한 분석

  • Sparrow에서 진행한 작업들은 이전의 여러 논문들에서 보여줬던 대화 시스템들의 많은 특성들을 공유하고 있다. 참고된 대화 시스템으로는 LaMDA, Anthropic에서 발표한 human feedback 기반의 대화 에이전트, SeeKeR가 있다.
    • LaMDA의 경우 세부적인 룰에대해서 레이블링 되었지만 각각의 rule에 기반한 레이블링이 되지 않았다. 그리고 reinforcement learning이 아닌 supervised learning을 활용.
    • 대화의 기준에 대해서는 Anthropic에서 제안한 helpful, honest, harmless(HHH) 개념을 차용하고, honest 대신에 correct 개념을 사용한다. ← sparrow에서는 honest 특성을 원하지 않기 때문
    • Anthropic Bai et al(2022)에서는 human preferences를 가지고 대화 에이전트를 학습했다. 이 대화 에이전트는 helpful, harmless 특징을 가지도록 학습했다. 하지만 rule들의 세부적인 항목들을 반영하여 학습하지 않고 human feedback 전체를 배우도록 학습했으며, external evidence와 통합 하는 기능을 가지지 않았다.
    • SeeKeR, LaMDA, Blenderbot3는 대화에 필요한 정보를 얻기 위한 search qeury를 생성하고, 그 정보를 바탕으로 응답을 생성하는 비슷한 retrieval mechanism을 사용하고 있다. SeeKeR는 검색을 사용하지만 evaluation 시 그 검색된 결과를 사용자에게 보여주지 않고, SeeKeR, LaMDA, BB3 모두 RL을 사용하지 않는 차이점이 있다.

2. Methods

  • 논문에서는 DPC로 사용되는 Dialogue Prompted Chinchilla 70B 모델을 사용한다.
  • Dialogue Prompted Chinchilla 70B
  • per-turn response preferences와 violations에 대한 사람이 평가한 데이터에 대해 수집. 수집한 데이터를 바탕으로 preference reward model과 rule reward model을 학습. 학습된 reward model들은 앞서 정의한 규칙들이 위반 되었는지 여부를 예측한다.
  • 강화학습 알고리즘에는 A2C를 활용.
  • A2C를 학습할때 초기 모델은 DPC 모델을 활용하며, preference RMs과 rule RM에서 나온 결과들을 결합하여 학습한다.
  • 학습된 reward model을 test-time에서 reranking을 적용해 보다 나은 성능향상을 이끌어냈다.

2.1. Defining rules

Sparrow는 helpful, correct, harmless dialogue을 목표로하며, 이전의 모델들이 human preference의 전체적인 점수를 고려했다면, Sparrow가 달성하고자 하는 목표를 위해 rule을 세분화 했다.

  • Helpfulness rules: 유저의 질문에 잘 답변하는지, 주제에 벗어나지 않는지, 반복과 같은 문제들이 있는지
  • Correctness rules: 대화 에이전트가 실제 물리적인 형체를 가졌다는 주장이나, 실제 세계에 행동을 취할수 있다는 것과 같은 부정확한 발언들

Baseline으로 잡은 DPC 모델의 경우 위와 같이 정의한 규칙들을 빈번하게 위반하는 현상을 보인다.

  • 특이한 점으로는 harmless에 대한 규칙들은 따로 정의하지 않았는데 그러한 이유는 모델이 해로운 답변을 생성하는 것은 사용자가 적대적인 행동하에서만 보이는 현상을 확인했기 때문에 기존 논문들을 참고하여 잠재적으로 해로운 문장을 생성하는 경우에 대해 규칙을 적용했다.
  • 규칙을 정의하는 데 중요하게 여겼던 부분은 데이터 제작자가 개별 규칙들은 다른 컨텍스트 없이 이해할 수 있도록 짧고, 독립적으로 설계

Pipeline

2.2. Generating dialogues turns

Prompting for dialogue Chinchilla 70B모델에 직접 작성한 프롬프트를 사용해서 User와 Agent 간의 대화를 프롬프트를 기반으로 대화를 한다. 그리고 추가적으로 Search Query, Search Result 를 도입해서 Search Query를 바탕으로 구글 검색엔진 통해 검색 결과를 evidence로 받아 Search Result를 추가 된다. 검색 후 결과를 받는 과정은 이전의 연구를 참고(Lazaridou et al. (2022))

구글 검색엔진을 이용하는 방식은 생성된 쿼리를 구글 검색엔진에 날리고, 결과를 scraping 해서 가지고 온다.

Chinchilla DPC: 기본 Chinchilla를 최종 결정 된 prompt를 사용해서 대화를 진행한다.

  • evidence가 없는 프롬프트
  • evidence가 있는 프롬프트

특별한 언급이 없는 경우 주어진 프롬프트를 사용하고 figure6에서 다른 프롬프트를 사용할때 효과를 보여준다. ← Gopher 에서 사용한 프롬프트 비교.

evidence는 언제사용하는가?

  • always search: 모델이 항상 Search Query를 생성하고 Search Result를 가져온다
  • nerver search: 모델이 evidence에 관계 없이 Agent를 생성하는것 ← 답변을 생성? Agent를 생성?
  • choose search: dialogue context에 Search Query와 Agent 역할에 대한 log likelihood를 계산하여 검색할지 말지를 결정.
  • @N: 검색여부를 결정하지 않고 N개의 response를 생성. 절반의 response는 검색 사용 한 답변, 나머지 절반 답변은 검색 없이 생성한 답변이다. 생성된 답변 중 reward model을 통해 답변을 reranking 하는 과정을 통해 결정.

2.3. 데이터 수집방법

  • Openai instructGPT와 그 이전에 공개했던 human feedback을 활용한 논문들과 유사하게 데이터를 수집했다.
  • Sparrow 모델에서는 fig.3에서와 같이 evaluation과정과 training 과정을 반복해서 순환하는 구조를 사용한다.
  • 최초에 DPC Chinchilla 모델을 통해 initialization을 하고 사람들에게 두가지 세팅인 per-turn response preferenceadversarial probing 에 대해서 직접 대화 에이전트와 대화를 나누도록 요청했다.

Per-turn response preference

  • 평가자들에게 불완전한 대화와 그 뒤에 올 가능한 여러개의 답변들이 함께 주어지고, 평가자들은 그들이 생각하기에 가장 좋은 답변은 생성한다 . 이때 답변들은 서로 다른 샘플링이나 모델을 통해서 생성된 답변이다.

  • 이때 Anthropic에서 제안한 대화 어시스턴트와 다른 점은 모델이 User, Agent 턴을 모두 생성하고 평가자들에게 가장 좋은 답변이 무엇인지 고르도록 요청한다.
  • Per-turn response preference data의 경우 하나 이상의 경쟁 모델들과 얼마나 더 선호 되는지 측정할수 있게하는 역할을 한다.
  • 답변이 검색을 통해 가지고 온 evidence를 활용해 생성된 답변이라면 평가자들은 추가적인 피드백을 준다.

Adversarial probing

  • 평가자들에게 앞서 정의한 규칙들을 보여주고, 모델이 규칙을 위반하도록 대화를 나누게 한다. 대화를 나누고 난 후에 같은 평가자가 모델이 대화에서 규칙을 위반했는지 여부를 판별한다.
  • 평가자들에게 일반적인 규칙 보다 특정한 규칙에 대해 위반했는지 여부를 평가해달라고 요청을 하면 모델의 특정한 실수들을 개선할 수 있다.

    논문의 3.5 General versus specific rules 참고

Training and evaluation pipeline

  • Adversarial probing은 모델이 얼마나 부적절한 행동을 하는지 보이는지 평가하고, response preference rate는 모델이 얼마나 도움이 되는지 평가할 수 있다.
  • rule violation data를 통해 사람이 평가한 규칙 위반 여부를 Rule RM(reward model)가 예측하도록 학습한다.
  • preference data는 Elo Preference RM(reward model)을 helpfulness를 평가하는 proxy로 학습한다.
  • 학습된 Rule RM과 Preference RM은 reranking과 RL에서 모델의 성능을 높이는데 사용된다.

Data qaulity

평가자들을 통해 좋은 데이터를 얻기 위해 평가자들에게 클릭 기반의 튜토리얼을 완료하도록 요청했고, 이해력 체크를 진행했다.

2.4 Evidence

Sparrow에서는 인터넷 검색을 활용해서 답변을 생성하도록 학습. 검색을 통해 얻은 evidence를 답변을 생성하는데 활용하고, 검색 능력을 학습하고 평가하기 위해 평가자들에게 어떤 정보가 답변이 활용되었는지 보여준다.

검색을 활용하기 위한 학습

  • DPC나 초기버전의 Sparrow 에대해 사람이 평가한 결과를 바탕으로 preference model을 학습한다. 이때 프롬프트 안에 Search Query와 Search Result를 추가하여 대화를 생성한다.
  • Response preference 데이터는 4개의 발화 데이터들을 통해 수집되었으며, 4개 중 2개의 발화는 evidence 없이 생성된 발화. 나머지 2개 발화는 Search Query를 생성하고, Search Result를 추가한 프롬프트를 바탕으로 생성된 발화이다.

검색, Retrieval

  • Search Result인 검색 결과는 구글 검색을 통해 검색 결과를 받으며, 구글 검색 후 HTML 웹 페이지를 긁어, 최대 500 character까지 사용해 검색 결과를 받는다
  • 검색에서는 Google Search API를 사용하는데 평가에 사용되는 데이터인 EL5데이터가 레딧 기반으로 제작된 데이터로 검색 사이트에서 레딧은 제외한다
  • google search에서 얻은 스니펫을 바탕으로 fuzzywuzzy라이브러리를 통해 스니펫의 위치를 얻고 스니펫 위치의 이전 100 캐릭터부터 이후 가장 가까운 문장이나 단락까지 자른 결과를 얻는다.
  • fuzzywuzzy threshold의 경우 0.75로, 0.75 이하의 검색 결과물은 사용하지 않는다.

사람의 피드백 수집, Collecting human feedback

선택적으로 검색할 수 있는 모델에 대해서 2가지 속성을 평가하고자 하며, 평가를 위해 평가자들에게 추가적인 질문을 한다.

  1. 모델이 사실과 관련된 발화를 할때 얼마나 evidence를 사용하는지?
  2. evidence가 주어진 경우 얼마나 모델이 발화한 내용을 뒷바침 하는지?
  • 생성한 답변을 보기전
  • 생성한 답변 평가(with evidence)
  • 생성한 답변 평가(without evidence)

2.5. Reward models

  • 2가지 유형의 reward model을 각각학습

  • 모델의 베이스는 70B Chinchilla

  • Reward model

    • Response Preference Reward Model(Preference RM): 발화 후보들 중에 사람의 선호도를 예측하는 모델

      • Elo preference score를 예측하도록 학습

        preference probability에 softmax

      • found that two auxiliary losses improved preference modelling
        • add a classification loss predicting whether evidence conditioned answers were supported and plausible, following GopherCite
        • 추가적으로 평가자들에게 낮은 퀄리티를 가진 발화를 나타내도록 해서 낮은 퀄리티를 가진 발화가 음의 값을 가지도록 정규화를 진행
      • Loss
        • RM의 경우 두가지로 나누어 학습 evidence + non-evidence, non-evidence 모델
        • auxiliary loss인 classification 태스크를 추가해서 agent와 아닌것의 supported and plausible 인지 여부를 분류하는 레이블을 분류.
        • classification할때 dialogue + response의 마지막 토큰 임베딩을 사용해서 예측한다.
      • Preference Reward model implementation
        • 리워드 모델은 RL training과 reranking 두가지 세팅으로 학습
        • Adam optimizer 사용
        • preference model에 대해서는 8 batch size 사용. rule model에 대해서는 16 batch를 사용.
        • dropout이나 다른 regularisation 은 사용하지 않음.
        • precision: bfloat 16
        • scheduler: linear warmup cosine decay
      • Preference RM training data
    • The Rule Violation Reward Model (Rule RM): Sparraw가 대화에서 규칙을 위반할 확률 예측

      • Rule RM r(x,y)[0,1]r(x,y) \in [0,1]에서 rule yy 가 위반 되었을 확률을 평가한다.

      • 학습은 2.3에서 수집한 rule violation data에 대해 학습.

      • 학습에서는 적은양의 데이터에서도 좋은 성능을 보이는 instruction tuning 방법론을 적용하여 학습.

      • training objective는 Yes, No 토큰에 대응하는 maximum likelihood를 사용.

         
      • Rule reward model

        • 주어진 대화에서 rule이 위반 되었는지 여부를 평가하는 probability를 예측
        • yes와 no 토큰에 maximise the likelihood를 학습한다.
        • prompt
        • data
          • adversarial probing task를 통해 수집한 데이터를 사용.
          • 총 14,576개 대화 수집.
          • 70%는 학습 데이터, 30%는 테스트 데이터
          • 6 epoch
        • (definitely break, probably break, unsure, probably follow, definitely follow)를 평가자가 선택.
          • break: definitely break, probably break
          • follow: probably follow, definitely follow
          • discard: 버려짐
    • Reward model을 학습할때 아래 64 layer는 freezing하고, 상위 16 layer만 튜닝하는데 사용했다. 64 layer를 freezing 함으로써 rule model과 preference model, base LM 간에 layer를 공유할 수 있다.

      layer 공유를 통해 메모리 사용량 감소 가능.

2.6. Reranking

학습 된 Preference RM과 Rule RM을 통해 여러 샘플링 된 발화들을 reranking 하는 과정을 거쳐 대화 에이전트의 성능을 향상시킬 수 있다.

인퍼런스 단계에서 N개의 샘플을 생성하고 합친 reward의 값이 가장 높은 샘플을 선택해서 답변으로 사용한다. 이때 N개의 샘플을 생성하는 모델을 model@Nmodel@N 으로 사용한다.

Figure 8 에서 model@8model@8에서 Sparrow가 어떻게 reranking을 하는지 보여준다. 대화에 대해서 기본 프롬프트 템플릿을 사용해 4개의 샘플을 생성하고, 2개의 Search Query를 이용해서 4개의 검색 결과를 가져와 샘플을 생성한다.

총 8개의 샘플에 대해서 RrerankR_{rerank} 계산식을 이용해 점수를 계산한다.

Rrerank=eRpreRpr+eAVG(Rpr)(i=1nRrulei)1nR_{rerank} = {{e^{R_{pr}}}\over{e^{R_{pr}} + e^{AVG(R_{pr})}}} (\prod_{i=1}^n R_{rule_i})^{1\over n}
  • 𝑅𝑝𝑟 is the Preference RM score
  • 𝐴𝑉𝐺(𝑅𝑝𝑟) is the average Preference RM score on the valid set
  • 𝑅𝑟𝑢𝑙𝑒𝑖 is the Reward RM score of rule ii out of nn

Preference Model은 좋은 퀄리티의 발화에는 좋은 점수를 Rule RM은 규칙을 위반한 발화에 대해서는 페널티를 부과하는 역할을 한다.

2.7. Supervised fine-tuning(SFT)

  • LM loss를 활용한 Supervised fine-tuning 방법은 LaMDA에서 주요하게 사용되었던 학습 방법으로 Sparrow에서도 Chinchilla를 fine-tuning 하는데 LM loss를 사용해 학습했다.
  • per-trun preference data 에 대해서는 모델이 선호도가 높은 답변을 생성하도록 학습
  • adversarial probing dialogues에 대해서는 적어도 good 이상의 평가를 받은 Agent의 대화에 대해서만 학습한다.
  • SFT 모델은 베이스라인으로 사용된 DPC 보다 좋은 성능을 보이며, RL 학습을 위한 좋은 initial point 가 된다.

2.8. Reinforcement learning

  • InstructGPT와 유사하게 reward model을 사용해서 대화 에이전트의 성능을 높이기 위해 RL을 적용한다. RL은 인퍼런스 시에 비용이 많이드는 Reranking 방법을 보완하기 위해 사용한다.
  • RL은 학습시에는 비용이 들지만 인퍼런스 단계에서는 추가적인 비용이 없다. 그리고 두가지 방법은 자유롭게 결합하고 뺄수 있다.
  • RL 학습 방법은 아래의 figure 7과 같이 도식화 할수 있으며, 각 에피소드는 이전 대화 컨텍스트를 바탕으로 생성된 발화로 구성된다. 이때 action은 각각의 토큰들 이며, reward는 각 에피소드가 끝나게 되면 주어진다. → 하나의 발화를 action들을 통해 구성하고, 발화가 완성되며 reward가 계산된다.

  • human-agent간의 대화로 수집된 대화에 대해서 하나의 생성된 문장에 대해서 RL을 학습하는 InstructGPT와는 달리 Sparrow에서는 self-play 형태를 사용한다.
  • Sparrow는 User, Agent, Search Query의 role을 수행할 수 있다.
  • 각 에피소드에서 대화 컨텍스트는 Sparrow가 수행하는 역할에 대해 프롬프트 형태로 사용된다.
  • 사용 되는 preceding dialogue context 는 여러 출처들로부터 가지고 온다.
    • A dataset of questions. EL5 데이터
    • A conversation with a human. open-ended and adversarial conversation form annotators. and randomly truncate
    • A red team language model. 사용가능한 수집데이터를 증각하기 위해 prompt를 활용해서 모델이 나쁜 답변을 하도록 유도한다.
    • Self-play data accumulated through training. 학습하는 동안 Sparrow는 User와 Agent의 역할을 수행하며, 최대 12 문장까지 self-play를 통해 대화를 생성할 수 있으며 이를 학습에 활용할수 있다.
  • 위의 mixture들에 의해 RL policy를 최적화 하기 위한 objective:
argmaxπEcD,sπ[R(sc)]\underset{\pi}{argmax}\mathbb {E}_{c\sim D,s \sim \pi} [R(s|c)]
  • 𝑐 ∼ D is a distribution of dialogue contexts defined above
  • 𝑠 = a1:Ta_{1:T} are utterances generated according to the agent’s policy 𝜋.

Note that we elide the summation of rewards over the episode as the reward is zero at all steps apart from the end of an episode, and we don’t apply explicit discounting

  • Full reward function RR
  • RL Reward는 response preference model과 rule violation model의 합으로 주어지고, rule reward의 경우 모든 rule에 대해서 평균 값으로 계산된다.
  • User 발화의 경우 rule reward 값을 받지 않지만 Agent 발화에 대해서는 같은 preference model을 사용한다.

preference model과 rule model 은 서로 다른 범위의 output을 가지므로 reward를 더하기 전에 평균과 표준편차를 통해서 각각 정규화를 거친다.

  • RL 알고리즘으로는 batched synchronous advantage actor-critic을 사용한다

  • Policy 학습을 위해 Chinchilla 또는 SFT 모델을 사용하고, Sparrow는 RL 학습 시에 SFT 모델로 부터 학습을 진행했다. RL 학습 간에 높은 reward 값으로 학습이 깨지는 것을 방지하기 위해 finetuned policy와 초기 teacher model 간의 KL divergence를 계산해 페널티로 부여했다.

  • Chinchilla가 가진 80개의 layer 중 64개를 freeze 하여 메모리리를 절약하는 방법을 사용.

RL 학습간 분홍색 부분으로 된 레이어만 사용되며, 파란색 레이어 들은 fine-tune RM 레이어

Sparrow에서는 self-play, search, fine-grained rules, lm red-teaming 을 통해 InstructGPT를 뛰어넘고자 했음.

RL Implementation Detail

  • 70B 모델에 A2C policy 적용
  • optimizer: adafactor
  • learning rate: 2e-6
  • batch size: 16
  • freeze 64/80 transformer layers
  • model sharded across 64 TPU v3

3. Result

adversarial probing 관련

evidence 관련

평가 정보

3.1. Preferences and rule violations

Three model preference rate

  • We use three-model comparisons rather than pairwise preference to avoid biases causing the raters to default to preferring the option with or without evidence without careful evaluation
  • Each dialogue task starts with a User turn sampled from a test set of 200 utterances, consisting of 100 randomly sampled questions from the ELI5 dataset

Violation rate under adversarial probing

  • We ask the raters to lead a conversation with Sparrow in such a way that Sparrow might break the specified rule 위반할 수 있는 방식으로 평가자에게 Sparrow와의 대화를 이끌도록 요청합니다 . 불확실한 등급을 삭제하고 척도를 break 및 follow 로 이진화하여 집계합니다 .

  • We ask the raters to lead a conversation with Sparrow in such a way that Sparrow might break the specified rule (one of first 18 rules in table 14) as described in section 2.3. We aggregate by dropping unsure ratings and binarising the scale into break and follow.

  • we find that combining RL with reranking@8 (in red) achieves the best performance both in terms of preference win rates and resilience to adversarial probing.

  • figure9. RL and reranking are complementary: fig. 9 shows that reranking gives a consistent three-model preference rate improvement for all the classes of models (DPC, SFT, RL).

  • figure10. shows that RL and SFT outperform the DPC baseline by having lower violation rates under adversarial probing.

  • Figure11 shows that our interventions improve Sparrow’s resilience to attack for a majority of rules. However, they do not alleviate harms from the following rules: no stereotypes, no medical advice, no legal advice, no microaggressions, and no insults
  • 평가자들의 웰빙을 위해 일부 데이터는 적게 수집

3.2. Evidence evaluation

  • Multi-turn supported and plausible evaluation We find that humans determine our best model’s responses with evidence to be plausible and supported in 78% of the cases.

  • Selective prediction of using evidence An important ability of the agent is to determine for which turns to display supporting evidence alongside the response.

  • The confusion matrix in fig. 12 shows that Sparrow generally agrees with raters on whether evidence is necessary, with an overall agreement rate of over 90%.

3.3. Correctness evaluation

4. Discussion

4.1. Evidence limitations

  • 프롬프트 내에서 대화와 지식과 관련된 텍스트 들을 모두 포함하고 있기 때문에 길이가 길게 되고, evidenc를 그대로 복사하는 경향을 보인다.

5. Conclusion

  • Sparrow에서는 목표를 세분화된 규칙으로 나누고 넓은 주제에 대해 보다 정확하게 외부 지식을 대화 에이전트가 활용할수 있게 여러가지 테크닉들을 적용했다.
  • Sparrow는 factual questions에서 정확한 evidence를 가지고 오는데 78%라는 높은 성공률로 외부 지식을 가지고 온다.
  • Adaversarial condtion에서 사전에 정의한 규칙을 위반하는 확률을 8%로 낮췄다.
  • Sparrow는 깊이있는 대화가 아닌 넓은 범위의 대화를 다루었는데 깊이 있는 대화를 위해서는 대화 에이전트가 여러 단계의 논리적인 추론이 가능해야하며, 여러 전문가들과 실제 사람들의 피드백을 받을 수 있는 시스템이 필요하다.

References

  • Anthropic dialouge assistant

A General Language Assistant as a Laboratory for Alignment

Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

  • DeepMind Dialogue Prompted Chinchilla

Training Compute-Optimal Large Language Models

In conversation with AI: building better language models

In conversation with Artificial Intelligence: aligning language models with human values

Improving alignment of dialogue agents via targeted human judgements

  • internet augmented

Internet-augmented language models through few-shot prompting for open-domain question answering

  • 참고 논문

Teaching language models to support answers with verified quotes

0개의 댓글