[NLP_dialog] Open-domain Dialog System

김훈래·2024년 4월 22일

NLP_dialog

목록 보기
2/3
post-thumbnail

Open-domain Dialog System

  • 자유 주제 대화 시스템, 어떠한 주제로 말을 걸어도 시스템은 알맞은 답변을 하여 대화를 이어나감, 유저의 흥미를 계속 유발하여 최대한 긴 대화를 하는 것이 목적

언어 모델 기반 답변 생성 모델

  • Seq2Seq 모델 기반으로 답변을 한 단어씩 생성

데이터베이스 기반 답변 선택 모델

  • Retrieval-based model, 미리 선별된 DB에서 응답을 선택

  • 예시: 이루다

  • 자연어 이해 -> 후보 N개 선별 -> 최종 답변 선택

  • 자연어 이해: DialogBERT 사용, 카톡 대화 데이터로 BERT를 학습시킨 것

  • 후보 N개 선별: history를 보고 가장 비슷한 답변 N개 선정, 미리 계산된 문장 벡터들의 Cosine Similarity를 비교해 선별

  • 최종 답변 선택: Reranker 사용, N개 선별은 빠르게 추리는 것, 자세히 비교는 여기서 진행

  • 답변이 DB에서 나오기 때문에 더 자연스럽고, 후보가 많기 때문에 웬만한 대화 문맥에서든 어느 정도 말이 되는 응답 가능하다는 장점

자폐 과제 Open-domain Dialog System

  • 생성 기반 방법 + DB 기반 방법을 사용하여 자폐 환자들에게 일상 대화 말하기 유도를 위한 대화 시스템 구축

  • 자폐 환자 아동들의 돌발 발화에 대응하기 위한 응답 생성 + 다른 빈번한 일상 대화엔 유창하게 응답하기 위한 DB 구축

  • 생성된 응답이 공격성을 띄는지 Toxic filter 적용, DB 응답과 합쳐서 candidates 구성, Reranker를 통한 최종 응답 선택

  • 생성 모델 만으로는 불안정하고 환자들이 사용하기엔 부적절하다 생각하여 DB를 통한 후보 풀 생성 + 리랭킹 모듈을 통한 유창성 확보를 하고자 함

  • 응답 생성 모델은 자폐 대화 데이터셋으로 학습

  • 독성 필터 모델은 한국어 NSMC + 비속어 라인 합쳐서 학습

  • Reranker 모델은 한국어 일상 대화 데이터셋으로 학습, 대화 문맥과 응답 후보지들이 주어졌을 때 해당 응답이 적절한지 이진 분류 수행, 0~1 확률 값을 사용해서 순위 매기기 때문에 regression일 수도?, Negative sample은 이전 응답 반복/랜덤 응답 대체/이전 생성 오답 대체로 추가

0개의 댓글