[ 논문리뷰 ] Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval

sujungoh ·2025년 1월 22일

2023, Jiang et al.
https://github.com/anosorae/IRRA

1. 선행 연구의 동향 및 한계

Cross-modal matching loss functions를 네트워크 끝단에만 적용하여 feature-level 갭을 줄이는 middle-level 층에서 충분한 modality interaction이 부족함.
이는 cross-modal interaction이 적어 최적의 feature alignment를 보장하지 못함.

기존 방식의 한계 극복을 위해 IRRA(Cross-modal Implicit Relation Reasoning and Aligning framework) 제안
추가적인 supervision 없이 local visual-textual 관계를 학습해 global matching 성능 향상
Full CLIP 모델을 성공적으로 transfer하고, local relation 학습을 통해 discriminative feature 추출.

Masked Language Model( MLM )을 통해 modality 간 관계 학습
- Self-attention 및 cross-attention 메커니즘으로 이미지와 텍스트 간 관계를 생성

CLIP pre-trained ViT 모델 사용
이미지를 패칭하고 토큰화한 뒤 L-layer transformer 블록에 입력
Joint image-text embedding space로 linear projection을 통해 global image representation 생성

CLIP text encoder 사용
BPE로 토큰화된 텍스트를 transformer에 입력하여 masked self-attention으로 correlation 모델링
Joint image-text embedding space로 linear projection을 통해 global text representation 생성

MLM 사용하여 masked textual tokens를 이미지와 다른 텍스트 토큰으로 예측

stating embedding( 고정된 임베딩 )을 앵커로 사용해 이를 기준으로 이미지와 텍스트 정렬하고 모든 임베딩이 균형 잡히게 학습.
Multi-head cross-attention(MCA)와 4-layer transformer 블록으로 융합

마스킹된 텍스트 토큰 처리
- Text description T의 토큰을 랜덤하게 [MASK]로 마스킹하여 마스킹된 T^를 생성
- 마스킹된 T^는 text transformer에 입력되며, 마지막 hidden state이 multimodal interaction encoder로 전달됨.

MCA를 통한 이미지-텍스트 융합
- Masked text representation은 Q, image representation은 K, V로 설정
- MCA와 4-layer Transformer 블록들로 이미지와 텍스트 간의 관계를 학습하고 융합
- MCA의 연산 $\{h_m^i\}_{i=1}^L = \text{Transformer}(\text{MCA}(\text{LN:layer normalization}(Q, K, V)))$ $\text{MCA}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d}}\right)V$
MLP 분류기를 통한 마스크된 단어 예측
- MCA의 출력을 $\{h_m^i\}_{i=1}^L$ 로 나타내며, 이를 MLP분류기에 입력해 마스크된 단어의 예측 점수 계산
- 예측 점수: $\{m_{ij}\}_{j=1}^{|V|} = \text{MLP}(h_m^i)$
IRR 손실 함수
- 마스크된 단어 예측의 정확도 높이기 위해 설계된 손실 함수
- 모든 마스크된 단어의 예측 결과를 고려해 평균 손실 계산
- IRR 손실 공식: 정답 단어에 높은 확률 할당, 확률 높을수록 손실 작아짐. $L_{\text{irr}} = - \frac{1}{|M||V|} \sum_{i \in M} \sum_{j \in |V|} y_{ij} \log \left( \frac{\exp(m_{ij})}{\sum_{k=1}^{|V|} \exp(m_{ik})} \right)$
- $|M|$ : 마스크된 토큰 집합의 크기, $|V|$ : 단어장의 크기.
- $y_{ij}$ : $j$ 번째 단어가 정답일 때 1, 아닐 때 0인 원-핫 벡터.
- $m_{ij}$ : 모델이 $i$ 번째 마스크된 단어가 $j$ 번째 단어일 가능성으로 예측한 점수

Cosine similarity distribution과 KL divergence로 모델 예측과 정답 분포 간 차이 최소화.
Bidirectional SDM loss를 통해 양방향 정렬 성능 향상 $p_{i,j} = \frac{\exp\left(\text{sim}\left(f_v^i, f_t^j\right) / \tau\right)}{\sum_{k=1}^N \exp\left(\text{sim}\left(f_v^i, f_t^k\right) / \tau\right)}$ $L_{\text{i2t}} = KL(p_i \parallel q_i) = \frac{1}{N} \sum_{i=1}^N \sum_{j=1}^N p_{i,j} \log\left(\frac{p_{i,j}}{q_{i,j} + \epsilon}\right)$ $L_{\text{sdm}} = L_{\text{i2t}} + L_{\text{t2i}}$
$p_{i,j}$ : 이미지-텍스트 매칭 확률( 모델이 예측한 값 ), $q_{i,j}$ : 이미지-텍스트 매칭의 정답 확률( ground truth )