2023,Goel et al.
https://github.com/VICO-UoE/CIN




텍스트 표현과 이미지 영역 간 상관관계를 계산:
텍스트-이미지 유사도 계산: 텍스트 표현이 이미지 내 어떤 영역과 가장 관련있는지 추론
Mention 임베딩 계산: 하나의 mention은 (ex. a tall woman) 은 여러 텍스트 표현( a, tall, woman) 으로 구성. mention에 속한 텍스트 표현들의 유사도 결과를 가중 평균해 계산.
Mention과 이미지 연결 점수:
Bounding Box 추정: 여기서 선택된 영역은 pseudo-truth로 활용됨.
언어적 제약 기반으로 추가 점수 계산:
최종 손실 함수에 언어적 제약 점수 포함:


