

예시: 이루다
자연어 이해 -> 후보 N개 선별 -> 최종 답변 선택
자연어 이해: DialogBERT 사용, 카톡 대화 데이터로 BERT를 학습시킨 것
후보 N개 선별: history를 보고 가장 비슷한 답변 N개 선정, 미리 계산된 문장 벡터들의 Cosine Similarity를 비교해 선별
최종 답변 선택: Reranker 사용, N개 선별은 빠르게 추리는 것, 자세히 비교는 여기서 진행
답변이 DB에서 나오기 때문에 더 자연스럽고, 후보가 많기 때문에 웬만한 대화 문맥에서든 어느 정도 말이 되는 응답 가능하다는 장점

생성 기반 방법 + DB 기반 방법을 사용하여 자폐 환자들에게 일상 대화 말하기 유도를 위한 대화 시스템 구축
자폐 환자 아동들의 돌발 발화에 대응하기 위한 응답 생성 + 다른 빈번한 일상 대화엔 유창하게 응답하기 위한 DB 구축
생성된 응답이 공격성을 띄는지 Toxic filter 적용, DB 응답과 합쳐서 candidates 구성, Reranker를 통한 최종 응답 선택
생성 모델 만으로는 불안정하고 환자들이 사용하기엔 부적절하다 생각하여 DB를 통한 후보 풀 생성 + 리랭킹 모듈을 통한 유창성 확보를 하고자 함
응답 생성 모델은 자폐 대화 데이터셋으로 학습
독성 필터 모델은 한국어 NSMC + 비속어 라인 합쳐서 학습
Reranker 모델은 한국어 일상 대화 데이터셋으로 학습, 대화 문맥과 응답 후보지들이 주어졌을 때 해당 응답이 적절한지 이진 분류 수행, 0~1 확률 값을 사용해서 순위 매기기 때문에 regression일 수도?, Negative sample은 이전 응답 반복/랜덤 응답 대체/이전 생성 오답 대체로 추가