[ 논문리뷰 ] Who are you referring to? Coreference resolution in image narrations

sujungoh ·2025년 1월 23일

ICCV text-image retrieval 논문리뷰

2023,Goel et al.
https://github.com/VICO-UoE/CIN

1. 선행연구의 동향 및 한계

Coreference Resolution (CR)의 연구 동향

Coreference Resolution (CR)은 텍스트에서 동일 대상을 지칭하는 표현(mention)을 연결하는 작업으로 NLP의 핵심 과제.
기존 CR 연구는 텍스트 전용 모델에 주로 초점, 긴 텍스트에서 멀리 떨어진 표현 간 관계를 정확히 연결하기 어렵고, 대명사나 모호한 표현(one man, another man 등) 처리에 한계가 있음.

이미지-텍스트 CR 연구의 한계

이미지와 텍스트를 결합하는 시도(예: "Who's Waldo?")는 제한된 객체 종류나 짧은 표현에 집중되어 있음.
기존 데이터셋은 이미지 속 객체와 텍스트 표현을 연결하는 bounding box 정보를 포함하지 않아, 텍스트-이미지 기반 CR 평가가 불가능.
기존 모델(Faster R-CNN 등)은 이미지 내 객체만 탐지하며, 텍스트의 구체적인 표현(ex. "the woman", "a person")을 구분하지 못함.

2. 연구 필요성 및 차별성

연구 필요성

긴 텍스트 서술과 이미지 정보를 함께 활용한 Coreference Resolution의 필요성.
기존 데이터셋의 한계를 극복하기 위해 텍스트, 이미지, 그리고 텍스트 표현과 연결된 bounding box 정보를 포함하는 새로운 데이터셋이 요구됨.

차별성

CIN 데이터셋 개발: 긴 텍스트 서술에서 coreference chain과 bounding box 정보를 포함하여, 텍스트 표현과 이미지 영역을 연결하는 모델 평가 가능.

Weak Supervision 기반 학습: 라벨 부족 문제를 해결하기 위해 image-text pair만을 활용.
언어적 제약(Linguistic Constraints) 추가: 텍스트 문법적 정보를 활용해 대명사 및 모호한 표현 처리.
Multimodal Pipeline: 텍스트, 이미지, 마우스 트레이스 데이터를 통합적으로 처리.

3. 연구 질문

긴 서술 텍스트에서 대명사와 모호한 표현을 정확히 연결하려면 어떻게 해야 하는가?
텍스트 표현이 이미지 속 특정 영역을 지칭하도록 효과적으로 연결하는 방법은 무엇인가?

4. 사용 이론

Coreference Resolution의 본질

텍스트 전용 CR은 각 mention 쌍이 같은 대상을 지칭하는지 판별하는 clustering 문제로 모델링됨.
텍스트 간의 유사도, 문맥, 거리 등을 기반으로 관계를 판별.

Image-Text Mapping

텍스트 표현과 이미지 영역을 joint embedding space에 매핑하여 연결.
텍스트 표현이 같은 이미지를 가리키면 높은 점수를 부여하여 weak supervision을 가능하게 함.

Linguistic Constraints

언어적 규칙을 기반으로 mention 쌍의 관계를 추론:
- 같은 명사구는 동일 대상을 지칭한다고 가정.
- 대명사는 선행 명사와 연결.
- 표현 간 거리가 가까울수록 관계 확률이 증가.

5. 연구 방법

데이터셋: CIN (Coreferenced Image Narratives)

CIN은 긴 텍스트 서술에서 텍스트 표현, coreference chain, 이미지의 bounding box를 모두 포함하는 데이터셋.
Annotation 절차:
1. Mention 식별: 이미지 속 특정 영역을 지칭하는 텍스트 표현(mention)을 추출.
2. Coreference Chain 생성: 동일 대상을 지칭하는 표현을 연결(예: "a lady" ↔ "that person").
3. Bounding Box 추가: 각 mention 및 coreference chain에 대해 bounding box 지정.

모델 구성

(1) Image Encoder

Faster R-CNN으로 이미지 내 bounding box를 추출하고, 각 영역에서 다음 정보를 추출:
- Bounding Box 좌표.
- 해당 영역 객체의 텍스트 표현(예: "person", "tree").
- 비주얼 특징 벡터.
각 영역을 고차원 벡터로 임베딩하여 $e_i(r)$ 생성.

(2) Text Encoder

텍스트 서술에서 NLP parser를 사용하여 mention을 추출하고, 각 mention을 텍스트 임베딩 $e_t(m)$ 으로 변환.

(3) Mouse Trace Encoder

마우스 트레이스를 영역 좌표(5D 벡터)로 변환:
$[x_{\text{min}}, x_{\text{max}}, y_{\text{min}}, y_{\text{max}}, \text{area}]$ .
텍스트 표현과 관련된 마우스 트레이스 정보를 결합 $e_{tm}$ 해 텍스트 임베딩을 강화.

(4) Cross Attention Module

텍스트 표현과 이미지 영역 간 상관관계를 계산:

텍스트-이미지 유사도 계산: 텍스트 표현이 이미지 내 어떤 영역과 가장 관련있는지 추론

$\bar{a}(w) = \max_{r \in I} \frac{\exp\left(e_{tm}(w) \cdot e_i(r)\right)}{\sum_{r' \in I} \exp\left(e_{tm}(w) \cdot e_i(r')\right)}$
Mention 임베딩 계산: 하나의 mention은 (ex. a tall woman) 은 여러 텍스트 표현( a, tall, woman) 으로 구성. mention에 속한 텍스트 표현들의 유사도 결과를 가중 평균해 계산.

$a(m) = \sum_{w \in m} \bar{a}(w) \cdot e_{tm}(w)$
Mention과 이미지 연결 점수:

$g(m, r) = a(m) \cdot e_i(r)$
Bounding Box 추정: 여기서 선택된 영역은 pseudo-truth로 활용됨.

$r_m = \text{argmax}_r g(m, r)$

(5) Weak Supervision

라벨이 없는 데이터에서 pseudo-truth를 생성하여 학습.
- Mention $m$ 과 연결된 이미지 영역 $r_m$ 을 예측해 positive sample로 활용.
- Negative samples는 다른 이미지에서 랜덤으로 샘플링하여 부정 예제를 추가.

(6) Linguistic Constraints

언어적 제약 기반으로 추가 점수 $q(m, m')$ 계산:
- 같은 명사구, 대명사 참조, 표현 거리, 공통 단어 등을 기반으로 관계 추론.
최종 손실 함수에 언어적 제약 점수 포함:

$\mathcal{L} = ||f(m, m') − q(m, m')||^2$

6. 연구 핵심

Weak Supervision + Linguistic Constraints: 라벨 부족 문제를 해결하며 CR 성능을 개선.
CIN 데이터셋: 긴 텍스트 서술과 이미지 정보를 통합해 CR 모델 학습 및 평가 가능.
Multimodal Integration: 텍스트, 이미지, 마우스 트레이스 데이터를 결합해 텍스트 표현과 이미지 영역 연결.

7. 연구 의의 및 한계

연구 의의

긴 텍스트 서술에서도 이미지-텍스트 기반 Coreference Resolution을 가능하게 함.
Multimodal Integration으로 대명사와 모호한 표현 연결 성능 개선.
Mouse Trace 활용으로 텍스트 표현의 위치 정보를 명확히 제공.

한계

Linguistic Constraints가 복잡한 문맥에서 노이즈를 발생시킬 가능성.
Mouse Trace 데이터가 오류를 포함할 경우 성능 저하 우려.

sujungoh

반갑습니다!

이전 포스트

[ 논문리뷰 ] Who are you referring to? Coreference resolution in image narrations

1. 선행연구의 동향 및 한계

Coreference Resolution (CR)의 연구 동향

이미지-텍스트 CR 연구의 한계

2. 연구 필요성 및 차별성

연구 필요성

차별성

3. 연구 질문

4. 사용 이론

Coreference Resolution의 본질

Image-Text Mapping

Linguistic Constraints

5. 연구 방법

데이터셋: CIN (Coreferenced Image Narratives)

모델 구성

(1) Image Encoder

(2) Text Encoder

(3) Mouse Trace Encoder

(4) Cross Attention Module

(5) Weak Supervision

(6) Linguistic Constraints

6. 연구 핵심

7. 연구 의의 및 한계

연구 의의

한계

[ 논문리뷰 ] Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval

0개의 댓글