[논문 리뷰]A NewFormula for Sticker Retrieval: Reply with Stickers in Multi-Modal and Multi-Session Conversation

서다연·2025년 11월 26일
post-thumbnail

1. 서론

  • 연구 분야: 멀티모달 및 멀티세션 대화 환경에서 스티커를 retrieval하는 연구다. 사용자가 온라인 채팅에서 자신의 의도, 감정, 태도를 생생하게 표현하기 위해서 스티커를 사용하는 경우가 많은데, 스티커를 대화의 맥락에 맞게 추천하는 기술을 다룬다.
  • 연구 목적/질문: 이 연구의 주된 목적은 실제 대화처럼 여러 세션에 걸쳐서 텍스트, 이미지, 스티커 등의 다양한 정보가 오가는 복합적인 환경에 적용할 수 있는 새로운 스티커 retrieval 방법을 제안하는 것이다. 기존 연구들은 단일 세션의 텍스트 정보에만 의존하였는데, 과거 대화 기록인 historical session과 멀티모달 정보를 종합적으로 활용해서 사용자의 현재 의도를 파악하고 가장 적절한 스티커를 추천하는 것을 목표로 한다.
  • 주요 기여점
    • MultiChat 데이터셋 구축: 멀티모달 및 멀티세션 대화에서 스티커 검색 연구를 위하여 1,542개의 세션, 50,192개의 발화, 2,182개의 스티커를 포함하는 새로운 데이터셋을 제작하였다.
    • IGSR 프레임워크 제안 사용자의 의도를 학습하여 스티커 검색을 안내하는 IGSR(Intent-Guided Sticker Retrieval) 프레임워클르 제안하였다. 멀티모달 과거 기록을 모델링하고, 멀티태스크 학습 방식을 통해서 스티커를 검색한다.
    • 실험적 효과 입증: 제안한 MultiChat 데이터셋을 이용해서 광범위한 실험을 하였다. IGSR 모델이 기존의 여러 베이스 모델들보다 뛰어난 성능을 보임을 입증하였다.

1-1. 선행 연구에서는 본 연구 주제와 관련하여 어떤 연구들이 진행되었는가?

  • 감정 분석: 스티커를 활용해서 대화의 감정을 분석하는 연구가 다수 있었다.
  • 단일 세션 기반 검색: 현재 대화 세션의 텍스트 정보나, 바로 이전의 발화에 기반하여 스티커를 추천하는 연구가 주를 이루었다.
  • 특정 모델: MOD나 SRS와 같은 모델들은, 대화 맥락과 스티커를 직접 매칭하는 방법을 연구하였지만, 이들 역시 현재 세션의 텍스트 정보에만 집중하였다.

1-2. 본 연구에서 지적하는 선행 연구의 한계는 무엇인가?

  • 과거 대화 기록 무시: 대부분의 연구는 스티커를 추천할 때 현재 진행 중인 대화 세션의 내용에만 초점을 맞추고, 그 이전의 대화 기록이 주는 중요한 맥락 정보는 무시하였다.
  • 멀티모달 정보 미활용: 대화에는 텍스트뿐만 아니라 이전에 사용된 스티커나 이미지 같은 시각적 정보도 포함된다. 하지만 기존 연구들은 이러한 멀티모달 정보를 거의 고려하지 않았다. 특히, 스티커 자체의 시각적, 의미적 속성을 충분히 활용하지 않았다.
  • 세션 간 관계 모델링 실패: 여러 세션에 걸쳐 이어지는 대화의 흐름과 관계를 모델링하지 못한다. 대화의 전체적인 주제나 맥락을 이해하는 것에 한계가 있었다.

1-3. 본 연구에서는 위의 한계를 어떻게 극복하고자 하는가?

  • 멀티세션, 멀티모달 데이터셋 구축: 실제 대화 환경을 반영하기 위해서 의도적으로 과거 대화 기록과 다양한 멀티모달 정보를 포함하는 MultiChat 데이터셋을 구축하였다.
  • Memory Bank 도입: 과거 대화 세션의 텍스트와 스티커 속성 정보를 LLM을 통해 요약해서 메모리 뱅크에 저장한다. → 과거 기록을 효과적으로 활용하고자 한다.
  • 의도 기반 검색: 현재 대화와 관련성이 높은 과거 기록을 불러와서 사용자의 현재 의도를 먼저 파악한 후, 그 의도에 가장 적합한 스티커를 검색한다. 이로써 대화의 핵심 목적에 맞는 스티커를 추천할 수 있다.

2. 제안한 방법

2-1. 본 논문에서 제안하는 모델은 어떤 구조를 가지고 있는가?

  • IGSR 프레임워크는 크게 세 가지 주요 구성 요소로 이루어져 있다.
    • Multi-modal History Modeling
      • 과거 대화 기록에 포함된 텍스트와 스티커 정보를 모두 활용한다.
      • 각 스티커는 의도, 스타일, 제스처, 자세, 표정, 언어적 표현 등 6개의 속성으로 분석된다.
      • GPT-4를 이용해서 요약하고 메모리 뱅크에 저장한다.
      • 각 세션(발화+스티커속성)을 순차적으로 LLM에 넣어 요약(메모리 문장 Mi)을 생성하고 이를 모아 메모리 뱅크(MK) 를 구성.
    • Intent Derivation
      • 현재 대화 내용과 의미적으로 가장 관련 있는 과거 기록(relevant memory)를 메모리 뱅크에서 추출한다.
      • 추출된 메모리와 현재 대화 내용을 사전 학습된 VLM의 텍스트 인코더에 입력해서 사용자의 의도를 예측한다.
      • 현재 세션 요약(Di)으로부터 text-davinci-003 임베딩을 이용해 메모리뱅크에서 top-N 관련 메모리(Mr)를 검색.
      • f_text로 메모리 표현 Rm, 현재 컨텍스트 표현 Rc를 얻고 결합(RI = Rm ⊕ Rc) → 선형층 + softmax로 의도 분류(손실 LI)
    • Sticker Retrieval
      • VLM의 이미지 인코더를 사용해서 후보 스티커들의 representation을 생성한다.
      • 앞서 파생된 의도 표현과 스티커 표현 간의 유사도를 계산해서 가장 적합한 스티커를 최종적으로 선택한다.
      • CLIP 기반 이미지(스티커) 인코더로 Rv = f_image(v) 취득.
      • 의도 표현 RI와 스티커 표현 Rv 사이를 contrastive(InfoNCE)로 학습(텍스트→이미지, 이미지→텍스트 손실)하고 의도 분류 손실 LI를 합쳐 멀티태스크 학습(L = Lv2t + Lt2v + LI).

2-2. 본 논문에서 제안하는 모델은 어떻게 선행 연구의 한계를 해결하였는가?

  • IGSR 모델은 선행 연구의 한계를 다음과 같이 해결하였다.
    • 과거 기록 무시 문제 해결: 멀티모달 기록 모델링 단계에서 메모리 뱅크를 구축해서 과거 대화의 핵심 정보를 보존하고, 이를 현재 스티커 추천에서 직접 활용한다.
    • 멀티모달 정보 미활용 문제 해결: 텍스트뿐만 아니라 과거에 사용된 스티커를 6가지 속성으로 분석해서 메모리 뱅크에 포함시켰다. → 텍스트와 이미지가 결합된 멀티모달 맥락을 이해할 수 있게 하였다.
    • 세션 간 관께 모델링 실패 문제 해결: Intent Derivation 단계에서 현재 대화와 가장 관련성 높은 과거 기록을 동적으로 불러오는 메커니즘을 통해서 여러 세션에 걸친 대화의 연결고리를 효과적으로 모델링하였다.

3. 실험 설계

3-1. 실험의 대조군과 실험군은 무엇인가?

  • 실험군: 본 연구에서 제안하는 IGSR 모델.
  • 대조군: IGSR의 성능을 비교하기 위해서 다양한 기존 모델들을 대조군으로 설정하였다. 크게 두 그룹이 있다.
    • 텍스트 기반 모델: Baichuan2, Llama3, ChatGLM3, Qwen1.
    • 멀티모달(텍스트+이미지) 모델: MOD, SRS, CLIP, LLaVA, Qwen-VL, GPT-4

3-2. 실험의 데이터셋과 평가 지표는 무엇인가?

  • 데이터셋: 본 논문에서 구축한 MultiChat 데이터셋을 사용하였다. 중국의 소셜 플랫폼인 WeChat의 실제 그룹 채팅에서 수집되었다. 익명화 및 정제 과정을 거쳤다.
  • 평가 지표: 모델의 성능을 다각적으로 평가하기 위해서 다음과 같은 지표를 사용하였다.
    • P@N (Precision@N): 상위 N개의 추천 결과 중 정답이 포함될 확률 (N=1, 3, 5)
    • MAP (Mean Average Precision): 검색 정확도를 평가하는 지표다.
    • GPT-4: 생성된 스티커의 배경 일관성과 관련성을 자동으로 평가한다.
    • 인간 평가: 사람이 직접 스티커의 적절성을 평가해서 모델의 성능을 측정한다.

3-3. 본 실험의 설계가 선행 연구의 한계를 해결하기에 적합한가?

  • 적합하다.
    • 문제 상황을 재현하는 데이터셋: 멀티모달, 멀티세션의 데이터셋이기 때문에 제안하는 모델을 평가하기에 적합하다.
    • ablation study: IGSR의 핵심 구성 요소인 memory와 intent를 각각 제거한 모델과의 성능을 비교하는 연구가 포함되어 있다.
    • 다양한 대조군 설정: 텍스트 처리 모델과 멀티모달 모델을 대조군을 설정하여서 → 제안하는 모델의 성능 우위가 단순히 멀티모달 정보를 활용했기 때문인지, 멀티세션 정보를 효과적으로 활용했기 때문인지를 명확히 비교할 수 있다.
  • 한계
    • 관련 메모리를 포함하면 입력 시퀀스가 길어져서 일부 LLM(특히 text)은 성능이 오히려 떨어지는 현상이 있음.
    • 데이터: WeChat의 5개 그룹에서 수집했기 때문에 더 넓은 도메인에서 추출할 필요성이 있음.

3-4. 실험이 수행된 환경은 어떠한가?

  • 하드웨어: V100
  • 메모리뱅크 구축: GPT-4
  • 스티커 속성 생성: Qwen-VL
  • 관련 메모리 추출: text-davinci-003 임베딩.

4. 결과 및 논의

4-1. 실험 결과를 확인하였을 때, 선행 연구의 한계가 해결 되었는가?

  • 해결되었다.
    • Table2를 확인했을 때 IGSR은 모든 텍스트 기반 및 멀티모달 기반 모델들을 P@N, MAP, GPT-4, 인간 평가 등 모든 평가 지표에서 일관되게 좋은 성능을 달성하였다.
    • Table3을 확인했을 때, 메모리 모듈을 제거하면 모델의 성능이 크게 저하된다는 것을 확인할 수 있다. → 선행 연구의 한계였던 과거 기록을 무시하는 문제를 해결하였다는 것을 확인할 수 있다.
    • Tabla3을 확인했을 때, 의도 모듈을 제거하면 P@1이 급격히 하락한다. → 대화의 핵심 의도를 파악하는 것이 적절한 스티커를 찾는 것에 결정적인 역할을 한다는 것을 보여준다.
    • 긴 맥락 처리 능력: Llama3나 LLaVA 같은 모델들은 관련 메모리를 활용했을 때 성능이 향상되었다. → IGSR의 메모리 활용 전략이 긴 대화 맥락을 효과적으로 처리할 수 있는 모델에서 더 큰 잠재력을 가진다는 것을 확인할 수 있다.

4-2. 후속 연구로 어떤 것이 가능한가?

  • 사용자 정보 결합: 사용자의 개인적인 특성이나, 평소 스티커 사용 패턴 같은 사용자 정보를 모델에 결합한다면, 사용자 의도와 관련해서 더 좋은 성능을 달성할 수 있을 것이라고 생각한다.
  • 장기 문맥 처리 개선: 메모리 요약/검색을 더 잘 처리하는 방법이 있으면, 입력이 길어졌을 때 성능이 떨어지는 모델이 존재하는 문제점을 해결할 수 있을 것이라고 생각함.
  • 더 다양한 도메인을 이용해서 데이터셋 확장
  • 적절한 스티커가 없을 때 의도와 문맥 기반으로 이미지를 생성하는 방법.
  • 온디바이스 적용: 모델이 크기 때문에 온디바이스에는 한계가 있다고 생각함.
profile
AI 전공. Story Generation, Agent 분야 논문을 주로 리뷰합니다. RAG도 조금 합니다.

0개의 댓글