Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration

jihyelee·2023년 7월 28일
0

Prompting and Evaluating Large Language Models for Proactive Dialogues: Clarification, Target-guided, and Non-collaboration
CoRR 2023

분야 및 배경지식

  • 대화형 시스템의 선행성(=proactivity)
    • 시스템이 대화의 목표를 달성하기 위해 대화를 생성 및 통제하거나 주도권을 잡는 것을 의미
  • 대화를 위한 거대언어모델(Large Language Model; LLM)
    • ChatGPT의 성공으로, 지시를 따르는(instruction-following) 형태로 만들어진 예시들이나 ChatGPT로부터 생성된 대화 데이터를 활용해 LLM을 파인튜닝(지도학습)함으로써 대화 시스템을 만드는 경우가 많아짐
      • e.g. Alpaca, Dolly, Vicuna, Baize
    • 기존에는 사전학습 모델을 공개된 대화 데이터를 활용해 파인튜닝하는 방식이 전형적

문제점

  • ChatGPT와 같은 LLM에 기반한 대화형 시스템은 문맥 이해와 답변 생성에 있어 놀라운 성능을 보여주었으나, 한계가 존재
    • 모호한 질문에 대해 무작위로 추측한 답변을 제공
    • 사용자의 요청을 거절하지 못함

해결책

LLM 기반 대화 시스템 분석

  • 앞을 내다보고 행동하는(=proactive) 세 가지 특성에 기반해 대화 시스템을 분석
    • standard, proactive, proactive chain-of-thought(ProCoT)라는 세 가지에 프롬프팅 방식을 통해 분석

명확화 (clarification)

  • 공유된 정보가 정확하고 완전한지 확인하는 작업
    • 명확화 필요 예측(clarification need prediction), 명확화 질문 생성(clarification question generation)의 두 가지 세부 태스크로 구분
  • 분석 결과
    • LLM 기반 대화 시스템은 일반적으로 명확화 질문을 던지는 데에 실패하나, ProCoT를 활용하면 명확화 질문을 효과적으로 수행할 수 있음
    • 하지만, 도메인 특화 문제에 대해서는 ProCoT를 활용해도 여전히 한계가 존재

목표 지향 (target-guided)

  • 능동적으로 대화의 주제를 미리 지정한 목표로 이끄는 것을 의미
    • 다음 토픽 선택 및 변화된 답변 생성이라는 두 가지 세부 태스크로 분류 가능
    • 변화가 얼마나 부드러운지(transition smoothness), 목표를 달성할 수 있는지(target achievement)가 중요 지표
  • 분석 결과
    • LLM 기반 대화 시스템은 사전에 지정한 목표로 주제를 변화시키는 데에 높은 능률을 보이나 다소 공격적으로 주제 전환을 함
    • ProCoT를 사용하면 조금 더 부드럽게 주제 변환이 가능함

비협조적 대화 (non-collaborative)

  • 사용자와 시스템이 이해관계에 있어 갈등이 존재하나 전략적으로 합의에 도달할 수 있도록 소통하는 대화 형식
    • 미리 정해진 대화 전략을 활용해 합의에 이를 수 있는 답변을 생성하고자 함
  • 분석 결과
    • ProCoT를 활용해도 적절한 협상 전략과 대화 행동을 선택하는 데에 실패
    • ChatGPT의 경우 전략적으로 자신의 이익을 극대화시키고자 하기보다는 타협해버리는 경향이 존재

proactive chain-of-thought prompting (ProCoT)

  • 프롬프트를 활용해 LLM에 서술적인 일련의 추론이 가능하도록 목표 계획 능력을 추가
  • 다시 말해, 태스크 배경, 대화 이력, 가능한 대화행동의 모음을 이용해 LLM으로 하여금 다음 행동의 의사결정을 위한 생각 서술을 작성하고 적절한 행동을 고른 후 답변을 생성하도록 함
      1. 시스템으로 하여금 대화의 목표에 도달하기 위해 추론과 계획의 중간 단계에 대한 서술을 생성하도록 지시
      1. 취할 다음 행동을 결정할 것을 지시
      1. 시스템이 결정한 행동에 기반해 적절한 답변을 생성
  • vs. standard prompting
    • 태스크 배경과 대화 이력을 이용해 LLM으로 하여금 답변을 생성하도록 함
  • vs. proactive prompting
    • 태스크 배경, 대화 이력, 가능한 대화행동의 모음을 이용해 LLM으로 하여금 적절한 행동을 고른 후 답변을 생성하도록 함

평가

  • 모델
    • ChatGPT
    • Vicuna
  • 데이터셋
    • 명확화
      • Abg-CoQA, PACIFIC
    • 목표 지향
      • OTTers, TGConv
    • 비협조적 대화
      • CraigslistBargain
  • 평가지표
    • 명확화
      • Precision, Recall, F1 (Clarification Need Prediction)
      • BLEU-2, ROUGE-2 (Clarification Question Answering)
      • 사람의 평가
    • 목표 지향
      • OTTers: hits@k (다음 토픽 예측) & ROUGE-L, METEOR, CIDEr (답변 생성)
      • TGConv: Succ (목표 단어 생성 성공률), Turns (목표 도달에 평균 걸린 횟수), Coh (문맥 의미 유사성)
    • 비협조적 대화
      • F1, ROC AUC (전략 예측 및 대화 행동 예측)
      • BLEU, BERTScore (답변 생성)

한계

  • 제시한 ProCoT의 경우 이미 Chain-of-thought 프롬프팅이 널리 쓰이고 있다는 점에서 novelty가 떨어지며, 비협조적 대화 태스크에 대해서는 좋은 성능을 보여주지 못함

의의

  • 최근 각광받고 있는 LLM 기반 대화 시스템에 대해 포괄적인 분석을 실행
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글