연구 분야: 비디오에서의 Social Relation Recognition. 비디오에 등장하는 캐릭터 간의 사회적 관계를 파악한다.
연구 목적/질문: 최신 LLM은 순차적인 학습 데이터에 의존하기 때문에 본질적으로 복잡한 그래프 구조를 가진 소셜 관계를 효과적으로 모델링하는 것에 상당한 어려움을 겪는다. 본 연구에서는 이러한 한계를 해결하기 위하여 multimodal temporal knowledge Graphs (mtKG)와 LLM을 효과적으로 synergizing하는 low-coupling 방식을 제안한다.
주요 기여점
비디오에서의 소셜 관계 인식을 위해 KG와 LLM을 조합한 최초의 연구다
멀티모달 시계열 KG를 구축하고, multi-scale information retrieval을 수행하여 LLM과 효과적으로 시너지를 내는 mtLKG-LLM 프레임워크를 제안했다
주요 벤치마크 데이터셋이서 SOTA 성능을 달성했다
1-1. 선행 연구에서는 본 연구 주제와 관련하여 어떤 연구들이 진행되었는가?
멀티모달 임베딩 기반 추론: 시각 및 언어 인코더를 사용해서 비디오 전체의 멀티모달 임베딩을 생성하고 이를 기반으로 관계를 추론하는 연구들.
그래프 기반 모델링 (GNNs): 비디오의 장면을 그래프로 모델링하고 GNN 등을 활용해서 관계를 추론한다.
LLM 활용: LLM을 활용하여 멀티모달 이해 및 소셜 관계 추론을 시도한 연구가 있다.
1-2. 본 연구에서 지적하는 선행 연구의 한계는 무엇인가?
멀티모달 임베딩 기반 추론: feature space가 너무 거칠어서 세분화되고 그래프 구조를 가진 소셜 관계의 미묘한 차이를 포착하기가 어려웠다.
LLM 단독 사용: LLM은 근본적으로 sequential한 처리에 의존하기 때문에 소셜 네트워크가 본질적으로 가지는 그래프 구조적 특성을 다루기에 부적절하다
기존의 그래프 기반 모델링: 그래프 연산이 제한된 hops 수로 인하여 특정한 subgraphs에 국한되는 경향이 있었다. 또한, 시간의 흐름을 모델링하는 방식이 비효율적이어서 temporal reasoning 능력이 약하다.
기존의 KG+LLM을 통합한 시도. KG의 엔티티와 서브그래프를 LLM에 단순히 제공하는 방식은 KG의 중요한 문맥적, 구조적 특징을 손실하게 된다.
1-3. 본 연구에서는 위의 한계를 어떻게 극복하고자 하는가?
mtKG-LLM 프레임워크를 제안한다.
1, 2를 극복하기 위하여 그래프 구조를 활용한다.
순차적 임베딩이나 LLM을 단독으로 사용하는 것 대신에 MLLM을 활용해서 비디오 장면에서 세분화된 정보를 추출하여 공간적인 KG를 구축한다.
3을 극복하기 위하여 시간적 추론 및 서브그래프 한계를 탈피한다.
시간적 추론 강화: 공간적인 KG를 시간의 흐름에 따라 지속적으로 업데이트 하는 시계열 KG를 구축한다. 이를 통해서 장기적인 추론이 가능해진다.
다중 스케일 정보: 시계열 KG를 communities 단위로 분할하고 요약한다. 이를 통해서 LLM이 서브그래프가 아니라 개별 엔티티, 상호작용, 커뮤니티 수준의 글로벌 컨텍스트까지 포함하는 multi-scale 정보를 검색하여 활용할 수 있게 한다.
4를 극복하기 위하여 저결합 시너지를 쓴다.
KG 정보를 LLM에 주입하거나 LLM을 파인튜닝하는 대신, 잘 구조화된 다중 스케일 정보를 retrieve하여 프롬프트의 일부로 LLM에 제공하는 low-coupling 방식을 사용한다. 이를 통하여 KG의 구조적 손실 없이 LLM의 추론 능력을 활용할 수 있게 된다.
2. 제안한 방법
2-1. 본 논문에서 제안하는 모델은 어떤 구조를 가지고 있는가?
논문에서 mtKG-LLM 프레임워크를 제안하였다. 4단계의 파이프라인 구조를 가진다. (figure 2)
Multimodal KG Extraction
비디오의 각 장면을 입력받는다.
MLLM을 사용하여 장면의 시각 및 대사로부터 3가지 유형의 엔티티를 추출한다. 배경, 개인, 상호작용. (figure 3)
세 개의 엔티티를 연결하여 해당 장면의 spatial KG를 구축한다.
각 개인 엔티티는 해당 등장인물 엔티티와 연결됨
각 상호작용 엔티티는 등장인물 i와 j에 연결됨
배경 엔티티는 장면 내 모든 등장인물 쌍과 공유됨
외부의 지식은 최대한 포함하지 않게 함. → 하지만 파라메트릭 놀리지로 학습되어 있을 수 있다고 생각함. 추가적인 검증 과정은 없었음.
KG temporal update
시간의 흐름에 따라서 KG를 업데이트 한다.
이전 시점을 나타내는 long-term memory와 현재 장면의 short-term memory 정보를 LLM을 통하여 요약하고 결합한다. (figure 4)
이전 temporal KG와 현재의 공간 KG에 모두 등장하는 캐릭터들에 대해서 업데이트를 수행한다.
이전의 시각적 인테테와 현재의 엔티티를 LLM을 통하여 요약해서 업데이트한다.
겹치치 않는 KG는 그대로 보존된다.
이를 통해서 장기적인 문맥을 포함하는 업데이트된 temporal KG를 생성한다. → long-term memory를 업데이트 하는 것이다.
Community Summary
이 과정을 통하여 커뮤니티 단위로 KG를 나누고, 각 그룹의 의미 있는 정보를 LLM으로 요약하여 전체 장면의 전역적인 맥락을 만들 수 있게 됨.
글로벌 컨텍스트와 구조적 정보를 보존하기 위하여 앞의 단계에서 생성된 temporal KG를 community로 분할한다. Leiden 알고리즘을 사용한다.
이는 modularit를 최대화하도록 한다. 모듈러리티는 하나의 커뮤니티가 내부 연결이 실제로 많을수록 증가하고, 랜덤하게 연결했을 때와 비슷한 상황이면 감소하고, 커뮤니티끼리 구분이 명확하고 그 구조가 특별할 수록 증가한다.
community가 탐지되면 LLM을 사용해서 각 community에 포함된 엔티티들을 기반으로 커뮤니티 요약 정보를 생성한다. → 전역적인 문맥 정보를 얻을 수 있게 된다.
Social Relation Recognition
최종적으로 관계를 추출하는 단계다.
특정 관계를 질의할 때
KG temporal update에서 구축한 temporal KG로부터 타겟 엔티티 정보를 검색한다.
Community Summary에서 생성한 모든 커뮤니티 요약 정보를 가져와서 추가 문맥으로 활용한다.
이렇게 검색된 개별, 상호작용, 커뮤니티 수준의 정보를 LLM에 제공해서 두 캐릭터 간의 최종 소셜 관계를 인식한다. (figure 5)
2-2. 본 논문에서 제안하는 모델은 어떻게 선행 연구의 한계를 해결하였는가?
거친 임베딩의 한계: MLLM을 사용해서 세분화된 엔티티(개인, 배경, 상호작용)을 명시적으로 추출하고 이를 KG로 구조화해서 정보를 보존했다.
LLM의 순차적인 처리의 한계: 비디오를 순차적으로 처리하는 대신, KG로 먼저 모델링하고, LLM은 이 구조화된 그래프에서 검색된 다중 스케일 정보를 기반으로 추론하게 해서 그래프 구조적 특성을 반영하도록 하였다.
약한 시간적 추론의 한계: 지식 그래프 temporal update 모듈을 도입해서 long-tem memory가 현재 장면에 누적되도록 설계했다. 장기적인 관계 변화를 추론할 수 있게 하였다. (figure 6)
서브 그래프에 국한되는 한계: 커뮤니티 요약 모듈을 통해서 특정 엔티티 주변의 로컬한 정보뿐만 아니라 캐릭터가 속한 커뮤니티 전체의 글로벌 및 구조적 컨텍스트까지 LLM이 참고할 수 있도록 하였다.
3. 실험 설계
3-1. 실험의 대조군과 실험군은 무엇인가?
대조군: GCN , PGCN , MSTR , LIReC , MRR , PMFL , OD-GCN , SGCAT-CT(이전 SOTA) 등 기존의 그래프 기반 또는 멀티모달 임베딩 기반의 주요 소셜 관계 인식 방법론들.
실험군: 논문에서 제안한 mtKG-LLM (GPT-4를 백본으로 사용하였다.)
3-2. 실험의 데이터셋과 평가 지표는 무엇인가?
데이터셋: 4개의 비디오 데이터셋을 사용하였다.
MovieGraphs
HLVU
ViSR
LVU
평가 지표: 데이터셋의 특성에 따라서 다른 지표를 사용하였다.
MovieGraphs: Top-1 Accuracy (평균 정확도)
HLVU: Recall
ViSR 및 LVU: mAP (mean Average Precision)
3-3. 본 실험의 설계가 선행 연구의 한계를 해결하기에 적합한가?
적합하다.
세분화된 그래프 구조 및 시간적 추론 검증
실험에 사용된 MovieGraphs 데이터셋은 세밀한(fine-grained) 주석과 장기적 추론(long-term reasoning)을 요구하는 데이터셋입니다.
이 데이터셋에서 SOTA 대비 15%의 큰 성능 향상(Table 1참고)을 보인 것은, 제안한 시계열 KG 구축 및 다중 스케일 검색 방식이 선행 연구의 한계를 효과적으로 해결했음을 보여준다.
모듈별 기여도 검증 (Ablation Study)
Table 5는 제안한 방법의 핵심 모듈들이 실제로 성능 향상에 기여하는지 검증합니다.
's' (공간적 KG만 사용): 0.487
's+t' (시계열 KG 업데이트 추가): 0.504
's+t+c' (커뮤니티 요약까지 추가): 0.531
실험 결과, '시계열 업데이트(t)' 모듈 과 '커뮤니티 요약(c)' 모듈 이 추가될수록 정확도가 일관되게 상승했다. 이는 본 연구가 한계 극복을 위해 제안한 핵심 모듈(시간적 추론, 다중 스케일 컨텍스트)이 모두 유의미한 효과가 있음을 증명한다.
3-4. 실험이 수행된 환경은 어떠한가?
MLLM (정보 추출): GPT-4o 모델을 사용했습니다.
LLM (관계 인식): GPT-4 , Claude-3-5-sonnet , Gemini-1.5-pro , Llama3.1-405b 등 다양한 상용 및 오픈소스 LLM을 사용했다.
커뮤니티 감지: Leiden 알고리즘을 사용.
비디오 처리: 프레임은 초당 2프레임으로 샘플링되었다.
4. 결과 및 논의
4-1. 실험 결과를 확인하였을 때, 선행 연구의 한계가 해결 되었는가?
해결되었을 때의 근거는?
Table 1 (MovieGraphs)에서 제안 모델(mtKG-GPT4)이 평균 정확도 0.531을 달성하여, 이전 SOTA인 SGCAT-CT (0.463) 대비 15%의 큰 성능 향상을 보였다. 이는 세분화된 그래프 구조 및 시간적 추론 능력이 크게 개선되었음을 시사한다.
Table 2 (HLVU)에서도 Recall 0.598을 기록, 이전 SOTA (0.457) 대비 31%라는 매우 큰 폭의 성능 향상을 달성했습니다.
Table 3 (ViSR)에서도 mAP 0.574를 기록하며 이전 SOTA (0.501)를 크게 앞질렀다.
Ablation Study (Table 5)는 이러한 성능 향상이 본 논문이 제안한 핵심 모듈인 시계열 KG 업데이트(t)와 커뮤니티 요약(c)에서 비롯되었음을 명확히 보여준다.
해결되지 않았을 때의 근거는?
Table 1 (MovieGraphs)의 세부 항목을 보면, 'Opponent(적대자)' 관계 인식에서는 SGCAT-CT (0.570)가 제안 모델 (0.429)보다 훨씬 높은 성능을 보였습니다. 연구진은 이것이 LLM을 파인튜닝하지 않았기 때문에 , LLM의 사전 학습 데이터와 MovieGraphs 데이터셋 간의 'Opponent' 정의에 대한 데이터 분포 차이(Covariance Shift) 때문일 수 있다고 분석했습니다.
Table 4 (LVU)에서는 0.559 mAP를 기록했으나, 이는 SOTA인 STAN-Large (0.563)보다 약간 낮습니다. (논문은 이를 "고무적인 결과(encouraging results)"라고 언급하며 SOTA 달성 실패를 인정합니다 ).
4-2. 후속 연구로 어떤 것이 가능한가?
음성 결합
현재 논문은 시각 정보와 언어 정보(대사)를 멀티모달로 추출한다. 하지만 사회적 관계를 파악하는 것은 어떻게 말하는지가 무엇을 말하는지만큼 중요하다.