• 사람에 의한 평가 (Turing Test)
    • 생각할 수 있는 능력에 대한 테스트로는 문제가 있음
    • 짧은 시간 동안의 대화에서 인간 평가자를 속이기는 쉬움
    • 평가자 간의 차이, 시간과 비용, 다양성에 대해 평가
  • 혼란도(perplexity) (e.g. 혼란도 2라면 한 단어마다 2개의 단어 중 고민)
    • 혼란도가 낮을 수록 확률이 높은 문장
    • 언어모형은 혼란도를 최소화하도록 학습 → 대부분 자연어 생성 기법은 혼란도가 낮은 문장을 생성
  • HUSE(Human Unified with Statistical Evaluation) : 자연어 생성에 사람의 평가와 혼란도를 함께 고려하는 방법
    • 사람이 생성한 문장(H)과 컴퓨터가 생성한 문장(C)을 사람 평가와 혼란도를 계산 → H와 C를 구분하기 어려우면 좋은 챗봇
  • Sensibleness and Specificity Average(Meena의 평가 방법)
    - Sensibleness = 말이 되는가, Specificity = 맥락에 딱 맞는가 → Sensibleness가 0이면 Specificity도 0
    - 약점 : Sensibleness를 높이기는 쉬움 (I don’t know, OK.,.)
    - 고정식 평가 : 대화를 평가자에게 보여주고 미리 평가하게 함
    - 상호작용식 평가 : 사람이 챗봇과 자유롭게 상호작용(미리 챗봇과의 대화라고 알려줌)
    Meena
      - 2020년 구글 브레인에서 발표한 챗봇
      - 대댓글 대화를 추출하여 학습
      - sample-and-rank 디코딩 : 여러 문장을 무작위로 만든 후, 혼란도가 가장 낮은 문장을 선택
  • Engagingness, Humanness(Blender의 평가 방법)
    - 대화하고 싶은지, 사람 같은지?

    Blender: 2020년 facebook에서 발표한 챗봇
    - Retriever (기존 데이터에서 맥락에 맞는 답변을 찾아서 보여줌)
    - Generator(Meena와 같은)
    - Retriever and Refine : 위 두 가지를 결합, 유사한 답변을 찾아 수정

※ 디코딩 방법에 따른 결과 차이
- 최소 길이 : 20일때, 선호도가 가장 높음
- 반복 억제
- 디코딩 방법

※ 챗봇의 문제점
- 모순과 망각
- 대화 길이의 제한
- 단조로운 표현
- 사소하지 않은 반복
- 지식의 한계
- 이해력의 한계

profile
ML/DL swimmer

0개의 댓글