연구 분야: 멀티모달 및 멀티세션 대화 환경에서 스티커를 retrieval하는 연구다. 사용자가 온라인 채팅에서 자신의 의도, 감정, 태도를 생생하게 표현하기 위해서 스티커를 사용하는 경우가 많은데, 스티커를 대화의 맥락에 맞게 추천하는 기술을 다룬다.
연구 목적/질문: 이 연구의 주된 목적은 실제 대화처럼 여러 세션에 걸쳐서 텍스트, 이미지, 스티커 등의 다양한 정보가 오가는 복합적인 환경에 적용할 수 있는 새로운 스티커 retrieval 방법을 제안하는 것이다. 기존 연구들은 단일 세션의 텍스트 정보에만 의존하였는데, 과거 대화 기록인 historical session과 멀티모달 정보를 종합적으로 활용해서 사용자의 현재 의도를 파악하고 가장 적절한 스티커를 추천하는 것을 목표로 한다.
주요 기여점
MultiChat 데이터셋 구축: 멀티모달 및 멀티세션 대화에서 스티커 검색 연구를 위하여 1,542개의 세션, 50,192개의 발화, 2,182개의 스티커를 포함하는 새로운 데이터셋을 제작하였다.
IGSR 프레임워크 제안 사용자의 의도를 학습하여 스티커 검색을 안내하는 IGSR(Intent-Guided Sticker Retrieval) 프레임워클르 제안하였다. 멀티모달 과거 기록을 모델링하고, 멀티태스크 학습 방식을 통해서 스티커를 검색한다.
실험적 효과 입증: 제안한 MultiChat 데이터셋을 이용해서 광범위한 실험을 하였다. IGSR 모델이 기존의 여러 베이스 모델들보다 뛰어난 성능을 보임을 입증하였다.
1-1. 선행 연구에서는 본 연구 주제와 관련하여 어떤 연구들이 진행되었는가?
감정 분석: 스티커를 활용해서 대화의 감정을 분석하는 연구가 다수 있었다.
단일 세션 기반 검색: 현재 대화 세션의 텍스트 정보나, 바로 이전의 발화에 기반하여 스티커를 추천하는 연구가 주를 이루었다.
특정 모델: MOD나 SRS와 같은 모델들은, 대화 맥락과 스티커를 직접 매칭하는 방법을 연구하였지만, 이들 역시 현재 세션의 텍스트 정보에만 집중하였다.
1-2. 본 연구에서 지적하는 선행 연구의 한계는 무엇인가?
과거 대화 기록 무시: 대부분의 연구는 스티커를 추천할 때 현재 진행 중인 대화 세션의 내용에만 초점을 맞추고, 그 이전의 대화 기록이 주는 중요한 맥락 정보는 무시하였다.
멀티모달 정보 미활용: 대화에는 텍스트뿐만 아니라 이전에 사용된 스티커나 이미지 같은 시각적 정보도 포함된다. 하지만 기존 연구들은 이러한 멀티모달 정보를 거의 고려하지 않았다. 특히, 스티커 자체의 시각적, 의미적 속성을 충분히 활용하지 않았다.
세션 간 관계 모델링 실패: 여러 세션에 걸쳐 이어지는 대화의 흐름과 관계를 모델링하지 못한다. 대화의 전체적인 주제나 맥락을 이해하는 것에 한계가 있었다.
1-3. 본 연구에서는 위의 한계를 어떻게 극복하고자 하는가?
멀티세션, 멀티모달 데이터셋 구축: 실제 대화 환경을 반영하기 위해서 의도적으로 과거 대화 기록과 다양한 멀티모달 정보를 포함하는 MultiChat 데이터셋을 구축하였다.
Memory Bank 도입: 과거 대화 세션의 텍스트와 스티커 속성 정보를 LLM을 통해 요약해서 메모리 뱅크에 저장한다. → 과거 기록을 효과적으로 활용하고자 한다.
의도 기반 검색: 현재 대화와 관련성이 높은 과거 기록을 불러와서 사용자의 현재 의도를 먼저 파악한 후, 그 의도에 가장 적합한 스티커를 검색한다. 이로써 대화의 핵심 목적에 맞는 스티커를 추천할 수 있다.
2. 제안한 방법
2-1. 본 논문에서 제안하는 모델은 어떤 구조를 가지고 있는가?
IGSR 프레임워크는 크게 세 가지 주요 구성 요소로 이루어져 있다.
Multi-modal History Modeling
과거 대화 기록에 포함된 텍스트와 스티커 정보를 모두 활용한다.
각 스티커는 의도, 스타일, 제스처, 자세, 표정, 언어적 표현 등 6개의 속성으로 분석된다.
GPT-4를 이용해서 요약하고 메모리 뱅크에 저장한다.
각 세션(발화+스티커속성)을 순차적으로 LLM에 넣어 요약(메모리 문장 Mi)을 생성하고 이를 모아 메모리 뱅크(MK) 를 구성.
Intent Derivation
현재 대화 내용과 의미적으로 가장 관련 있는 과거 기록(relevant memory)를 메모리 뱅크에서 추출한다.
추출된 메모리와 현재 대화 내용을 사전 학습된 VLM의 텍스트 인코더에 입력해서 사용자의 의도를 예측한다.
현재 세션 요약(Di)으로부터 text-davinci-003 임베딩을 이용해 메모리뱅크에서 top-N 관련 메모리(Mr)를 검색.
f_text로 메모리 표현 Rm, 현재 컨텍스트 표현 Rc를 얻고 결합(RI = Rm ⊕ Rc) → 선형층 + softmax로 의도 분류(손실 LI)
Sticker Retrieval
VLM의 이미지 인코더를 사용해서 후보 스티커들의 representation을 생성한다.
앞서 파생된 의도 표현과 스티커 표현 간의 유사도를 계산해서 가장 적합한 스티커를 최종적으로 선택한다.
CLIP 기반 이미지(스티커) 인코더로 Rv = f_image(v) 취득.
의도 표현 RI와 스티커 표현 Rv 사이를 contrastive(InfoNCE)로 학습(텍스트→이미지, 이미지→텍스트 손실)하고 의도 분류 손실 LI를 합쳐 멀티태스크 학습(L = Lv2t + Lt2v + LI).
2-2. 본 논문에서 제안하는 모델은 어떻게 선행 연구의 한계를 해결하였는가?
IGSR 모델은 선행 연구의 한계를 다음과 같이 해결하였다.
과거 기록 무시 문제 해결: 멀티모달 기록 모델링 단계에서 메모리 뱅크를 구축해서 과거 대화의 핵심 정보를 보존하고, 이를 현재 스티커 추천에서 직접 활용한다.
멀티모달 정보 미활용 문제 해결: 텍스트뿐만 아니라 과거에 사용된 스티커를 6가지 속성으로 분석해서 메모리 뱅크에 포함시켰다. → 텍스트와 이미지가 결합된 멀티모달 맥락을 이해할 수 있게 하였다.
세션 간 관께 모델링 실패 문제 해결: Intent Derivation 단계에서 현재 대화와 가장 관련성 높은 과거 기록을 동적으로 불러오는 메커니즘을 통해서 여러 세션에 걸친 대화의 연결고리를 효과적으로 모델링하였다.
3. 실험 설계
3-1. 실험의 대조군과 실험군은 무엇인가?
실험군: 본 연구에서 제안하는 IGSR 모델.
대조군: IGSR의 성능을 비교하기 위해서 다양한 기존 모델들을 대조군으로 설정하였다. 크게 두 그룹이 있다.