[논문 리뷰]Synergizing Multimodal Temporal Knowledge Graphs and Large Language Models for Social Relation Recognition

서다연·2025년 11월 26일
post-thumbnail

1. 서론

  • 연구 분야: 비디오에서의 Social Relation Recognition. 비디오에 등장하는 캐릭터 간의 사회적 관계를 파악한다.
  • 연구 목적/질문: 최신 LLM은 순차적인 학습 데이터에 의존하기 때문에 본질적으로 복잡한 그래프 구조를 가진 소셜 관계를 효과적으로 모델링하는 것에 상당한 어려움을 겪는다. 본 연구에서는 이러한 한계를 해결하기 위하여 multimodal temporal knowledge Graphs (mtKG)와 LLM을 효과적으로 synergizing하는 low-coupling 방식을 제안한다.
  • 주요 기여점
    • 비디오에서의 소셜 관계 인식을 위해 KG와 LLM을 조합한 최초의 연구다
    • 멀티모달 시계열 KG를 구축하고, multi-scale information retrieval을 수행하여 LLM과 효과적으로 시너지를 내는 mtLKG-LLM 프레임워크를 제안했다
    • 주요 벤치마크 데이터셋이서 SOTA 성능을 달성했다

1-1. 선행 연구에서는 본 연구 주제와 관련하여 어떤 연구들이 진행되었는가?

  • 멀티모달 임베딩 기반 추론: 시각 및 언어 인코더를 사용해서 비디오 전체의 멀티모달 임베딩을 생성하고 이를 기반으로 관계를 추론하는 연구들.
  • 그래프 기반 모델링 (GNNs): 비디오의 장면을 그래프로 모델링하고 GNN 등을 활용해서 관계를 추론한다.
  • LLM 활용: LLM을 활용하여 멀티모달 이해 및 소셜 관계 추론을 시도한 연구가 있다.

1-2. 본 연구에서 지적하는 선행 연구의 한계는 무엇인가?

  • 멀티모달 임베딩 기반 추론: feature space가 너무 거칠어서 세분화되고 그래프 구조를 가진 소셜 관계의 미묘한 차이를 포착하기가 어려웠다.
  • LLM 단독 사용: LLM은 근본적으로 sequential한 처리에 의존하기 때문에 소셜 네트워크가 본질적으로 가지는 그래프 구조적 특성을 다루기에 부적절하다
  • 기존의 그래프 기반 모델링: 그래프 연산이 제한된 hops 수로 인하여 특정한 subgraphs에 국한되는 경향이 있었다. 또한, 시간의 흐름을 모델링하는 방식이 비효율적이어서 temporal reasoning 능력이 약하다.
  • 기존의 KG+LLM을 통합한 시도. KG의 엔티티와 서브그래프를 LLM에 단순히 제공하는 방식은 KG의 중요한 문맥적, 구조적 특징을 손실하게 된다.

1-3. 본 연구에서는 위의 한계를 어떻게 극복하고자 하는가?

  • mtKG-LLM 프레임워크를 제안한다.
  • 1, 2를 극복하기 위하여 그래프 구조를 활용한다.
    • 순차적 임베딩이나 LLM을 단독으로 사용하는 것 대신에 MLLM을 활용해서 비디오 장면에서 세분화된 정보를 추출하여 공간적인 KG를 구축한다.
  • 3을 극복하기 위하여 시간적 추론 및 서브그래프 한계를 탈피한다.
    • 시간적 추론 강화: 공간적인 KG를 시간의 흐름에 따라 지속적으로 업데이트 하는 시계열 KG를 구축한다. 이를 통해서 장기적인 추론이 가능해진다.
    • 다중 스케일 정보: 시계열 KG를 communities 단위로 분할하고 요약한다. 이를 통해서 LLM이 서브그래프가 아니라 개별 엔티티, 상호작용, 커뮤니티 수준의 글로벌 컨텍스트까지 포함하는 multi-scale 정보를 검색하여 활용할 수 있게 한다.
  • 4를 극복하기 위하여 저결합 시너지를 쓴다.
    • KG 정보를 LLM에 주입하거나 LLM을 파인튜닝하는 대신, 잘 구조화된 다중 스케일 정보를 retrieve하여 프롬프트의 일부로 LLM에 제공하는 low-coupling 방식을 사용한다. 이를 통하여 KG의 구조적 손실 없이 LLM의 추론 능력을 활용할 수 있게 된다.

2. 제안한 방법

2-1. 본 논문에서 제안하는 모델은 어떤 구조를 가지고 있는가?

  • 논문에서 mtKG-LLM 프레임워크를 제안하였다. 4단계의 파이프라인 구조를 가진다. (figure 2)
  • Multimodal KG Extraction
    • 비디오의 각 장면을 입력받는다.
    • MLLM을 사용하여 장면의 시각 및 대사로부터 3가지 유형의 엔티티를 추출한다. 배경, 개인, 상호작용. (figure 3)
    • 세 개의 엔티티를 연결하여 해당 장면의 spatial KG를 구축한다.
      • 각 개인 엔티티는 해당 등장인물 엔티티와 연결됨
      • 각 상호작용 엔티티는 등장인물 i와 j에 연결됨
      • 배경 엔티티는 장면 내 모든 등장인물 쌍과 공유됨
    • 외부의 지식은 최대한 포함하지 않게 함. → 하지만 파라메트릭 놀리지로 학습되어 있을 수 있다고 생각함. 추가적인 검증 과정은 없었음.
  • KG temporal update
    • 시간의 흐름에 따라서 KG를 업데이트 한다.
    • 이전 시점을 나타내는 long-term memory와 현재 장면의 short-term memory 정보를 LLM을 통하여 요약하고 결합한다. (figure 4)
    • 이전 temporal KG와 현재의 공간 KG에 모두 등장하는 캐릭터들에 대해서 업데이트를 수행한다.
      • 이전의 시각적 인테테와 현재의 엔티티를 LLM을 통하여 요약해서 업데이트한다.
      • 겹치치 않는 KG는 그대로 보존된다.
    • 이를 통해서 장기적인 문맥을 포함하는 업데이트된 temporal KG를 생성한다. → long-term memory를 업데이트 하는 것이다.
  • Community Summary
    • 이 과정을 통하여 커뮤니티 단위로 KG를 나누고, 각 그룹의 의미 있는 정보를 LLM으로 요약하여 전체 장면의 전역적인 맥락을 만들 수 있게 됨.
    • 글로벌 컨텍스트와 구조적 정보를 보존하기 위하여 앞의 단계에서 생성된 temporal KG를 community로 분할한다. Leiden 알고리즘을 사용한다.
      • 이는 modularit를 최대화하도록 한다. 모듈러리티는 하나의 커뮤니티가 내부 연결이 실제로 많을수록 증가하고, 랜덤하게 연결했을 때와 비슷한 상황이면 감소하고, 커뮤니티끼리 구분이 명확하고 그 구조가 특별할 수록 증가한다.
    • community가 탐지되면 LLM을 사용해서 각 community에 포함된 엔티티들을 기반으로 커뮤니티 요약 정보를 생성한다. → 전역적인 문맥 정보를 얻을 수 있게 된다.
  • Social Relation Recognition
    • 최종적으로 관계를 추출하는 단계다.
    • 특정 관계를 질의할 때
      • KG temporal update에서 구축한 temporal KG로부터 타겟 엔티티 정보를 검색한다.
        • Community Summary에서 생성한 모든 커뮤니티 요약 정보를 가져와서 추가 문맥으로 활용한다.
    • 이렇게 검색된 개별, 상호작용, 커뮤니티 수준의 정보를 LLM에 제공해서 두 캐릭터 간의 최종 소셜 관계를 인식한다. (figure 5)

2-2. 본 논문에서 제안하는 모델은 어떻게 선행 연구의 한계를 해결하였는가?

  • 거친 임베딩의 한계: MLLM을 사용해서 세분화된 엔티티(개인, 배경, 상호작용)을 명시적으로 추출하고 이를 KG로 구조화해서 정보를 보존했다.
  • LLM의 순차적인 처리의 한계: 비디오를 순차적으로 처리하는 대신, KG로 먼저 모델링하고, LLM은 이 구조화된 그래프에서 검색된 다중 스케일 정보를 기반으로 추론하게 해서 그래프 구조적 특성을 반영하도록 하였다.
  • 약한 시간적 추론의 한계: 지식 그래프 temporal update 모듈을 도입해서 long-tem memory가 현재 장면에 누적되도록 설계했다. 장기적인 관계 변화를 추론할 수 있게 하였다. (figure 6)
  • 서브 그래프에 국한되는 한계: 커뮤니티 요약 모듈을 통해서 특정 엔티티 주변의 로컬한 정보뿐만 아니라 캐릭터가 속한 커뮤니티 전체의 글로벌 및 구조적 컨텍스트까지 LLM이 참고할 수 있도록 하였다.

3. 실험 설계

3-1. 실험의 대조군과 실험군은 무엇인가?

  • 대조군: GCN , PGCN , MSTR , LIReC , MRR , PMFL , OD-GCN , SGCAT-CT(이전 SOTA) 등 기존의 그래프 기반 또는 멀티모달 임베딩 기반의 주요 소셜 관계 인식 방법론들.
  • 실험군: 논문에서 제안한 mtKG-LLM (GPT-4를 백본으로 사용하였다.)

3-2. 실험의 데이터셋과 평가 지표는 무엇인가?

  • 데이터셋: 4개의 비디오 데이터셋을 사용하였다.
    • MovieGraphs
    • HLVU
    • ViSR
    • LVU
  • 평가 지표: 데이터셋의 특성에 따라서 다른 지표를 사용하였다.
    • MovieGraphs: Top-1 Accuracy (평균 정확도)
    • HLVU: Recall
    • ViSR 및 LVU: mAP (mean Average Precision)

3-3. 본 실험의 설계가 선행 연구의 한계를 해결하기에 적합한가?

  • 적합하다.
  • 세분화된 그래프 구조 및 시간적 추론 검증
    • 실험에 사용된 MovieGraphs 데이터셋은 세밀한(fine-grained) 주석과 장기적 추론(long-term reasoning)을 요구하는 데이터셋입니다.
    • 이 데이터셋에서 SOTA 대비 15%의 큰 성능 향상(Table 1참고)을 보인 것은, 제안한 시계열 KG 구축 및 다중 스케일 검색 방식이 선행 연구의 한계를 효과적으로 해결했음을 보여준다.
  • 모듈별 기여도 검증 (Ablation Study)
    • Table 5는 제안한 방법의 핵심 모듈들이 실제로 성능 향상에 기여하는지 검증합니다.
    • 's' (공간적 KG만 사용): 0.487
    • 's+t' (시계열 KG 업데이트 추가): 0.504
    • 's+t+c' (커뮤니티 요약까지 추가): 0.531
    • 실험 결과, '시계열 업데이트(t)' 모듈 과 '커뮤니티 요약(c)' 모듈 이 추가될수록 정확도가 일관되게 상승했다. 이는 본 연구가 한계 극복을 위해 제안한 핵심 모듈(시간적 추론, 다중 스케일 컨텍스트)이 모두 유의미한 효과가 있음을 증명한다.

3-4. 실험이 수행된 환경은 어떠한가?

  • MLLM (정보 추출): GPT-4o 모델을 사용했습니다.
  • LLM (관계 인식): GPT-4 , Claude-3-5-sonnet , Gemini-1.5-pro , Llama3.1-405b 등 다양한 상용 및 오픈소스 LLM을 사용했다.
  • 커뮤니티 감지: Leiden 알고리즘을 사용.
  • 비디오 처리: 프레임은 초당 2프레임으로 샘플링되었다.

4. 결과 및 논의

4-1. 실험 결과를 확인하였을 때, 선행 연구의 한계가 해결 되었는가?

  • 해결되었을 때의 근거는?
    • Table 1 (MovieGraphs)에서 제안 모델(mtKG-GPT4)이 평균 정확도 0.531을 달성하여, 이전 SOTA인 SGCAT-CT (0.463) 대비 15%의 큰 성능 향상을 보였다. 이는 세분화된 그래프 구조 및 시간적 추론 능력이 크게 개선되었음을 시사한다.
    • Table 2 (HLVU)에서도 Recall 0.598을 기록, 이전 SOTA (0.457) 대비 31%라는 매우 큰 폭의 성능 향상을 달성했습니다.
    • Table 3 (ViSR)에서도 mAP 0.574를 기록하며 이전 SOTA (0.501)를 크게 앞질렀다.
    • Ablation Study (Table 5)는 이러한 성능 향상이 본 논문이 제안한 핵심 모듈인 시계열 KG 업데이트(t)와 커뮤니티 요약(c)에서 비롯되었음을 명확히 보여준다.
  • 해결되지 않았을 때의 근거는?
    • Table 1 (MovieGraphs)의 세부 항목을 보면, 'Opponent(적대자)' 관계 인식에서는 SGCAT-CT (0.570)가 제안 모델 (0.429)보다 훨씬 높은 성능을 보였습니다. 연구진은 이것이 LLM을 파인튜닝하지 않았기 때문에 , LLM의 사전 학습 데이터와 MovieGraphs 데이터셋 간의 'Opponent' 정의에 대한 데이터 분포 차이(Covariance Shift) 때문일 수 있다고 분석했습니다.
    • Table 4 (LVU)에서는 0.559 mAP를 기록했으나, 이는 SOTA인 STAN-Large (0.563)보다 약간 낮습니다. (논문은 이를 "고무적인 결과(encouraging results)"라고 언급하며 SOTA 달성 실패를 인정합니다 ).

4-2. 후속 연구로 어떤 것이 가능한가?

  • 음성 결합
    • 현재 논문은 시각 정보와 언어 정보(대사)를 멀티모달로 추출한다. 하지만 사회적 관계를 파악하는 것은 어떻게 말하는지가 무엇을 말하는지만큼 중요하다.
    • 음성을 끼면 적대적인 관계를 잘 추출하지 못했다는 한계를 해결할 수 있을 것이다.
profile
AI 전공. Story Generation, Agent 분야 논문을 주로 리뷰합니다. RAG도 조금 합니다.

0개의 댓글