챗봇 평가 방법

wandajeong·2023년 4월 6일

HUSE Perplexity blender engagingness humanness meena retriever sample-and-rank ssa turing test

NLP/Text Data Analysis

목록 보기

11/12

사람에 의한 평가 (Turing Test)
- 생각할 수 있는 능력에 대한 테스트로는 문제가 있음
- 짧은 시간 동안의 대화에서 인간 평가자를 속이기는 쉬움
- 평가자 간의 차이, 시간과 비용, 다양성에 대해 평가
혼란도(perplexity) (e.g. 혼란도 2라면 한 단어마다 2개의 단어 중 고민)
- 혼란도가 낮을 수록 확률이 높은 문장
- 언어모형은 혼란도를 최소화하도록 학습 → 대부분 자연어 생성 기법은 혼란도가 낮은 문장을 생성
HUSE(Human Unified with Statistical Evaluation) : 자연어 생성에 사람의 평가와 혼란도를 함께 고려하는 방법
- 사람이 생성한 문장(H)과 컴퓨터가 생성한 문장(C)을 사람 평가와 혼란도를 계산 → H와 C를 구분하기 어려우면 좋은 챗봇
Sensibleness and Specificity Average(Meena의 평가 방법)
- Sensibleness = 말이 되는가, Specificity = 맥락에 딱 맞는가 → Sensibleness가 0이면 Specificity도 0
- 약점 : Sensibleness를 높이기는 쉬움 (I don’t know, OK.,.)
- 고정식 평가 : 대화를 평가자에게 보여주고 미리 평가하게 함
- 상호작용식 평가 : 사람이 챗봇과 자유롭게 상호작용(미리 챗봇과의 대화라고 알려줌)
```
Meena
  - 2020년 구글 브레인에서 발표한 챗봇
  - 대댓글 대화를 추출하여 학습
  - sample-and-rank 디코딩 : 여러 문장을 무작위로 만든 후, 혼란도가 가장 낮은 문장을 선택
```
Engagingness, Humanness(Blender의 평가 방법)
- 대화하고 싶은지, 사람 같은지?

Blender: 2020년 facebook에서 발표한 챗봇
- Retriever (기존 데이터에서 맥락에 맞는 답변을 찾아서 보여줌)
- Generator(Meena와 같은)
- Retriever and Refine : 위 두 가지를 결합, 유사한 답변을 찾아 수정

※ 디코딩 방법에 따른 결과 차이
- 최소 길이 : 20일때, 선호도가 가장 높음
- 반복 억제
- 디코딩 방법

※ 챗봇의 문제점
- 모순과 망각
- 대화 길이의 제한
- 단조로운 표현
- 사소하지 않은 반복
- 지식의 한계
- 이해력의 한계

wandajeong

ML/DL swimmer

이전 포스트

Decoding and GPT

다음 포스트

챗봇 평가 방법

NLP/Text Data Analysis

Decoding and GPT

자연어 처리에서 데이터 증강 방법

0개의 댓글