※ Text를 이용해 Image 내의 물체를 탐색하는 연구에 관해 정리한 글이다.
Keyword : Phrase object detection, referring to object in images, object detection using text(phrase, clause, sentence), phrase localization 등
단순히 삭제할 object에 해당하는 '단어'만을 input으로 받아 BOUNDING BOX로 변환하는 것은 다중 물체 삭제와 많은 영상 처리에 도움은 되겠지만 제대로 된 ‘문장’을 이해해 Bounding box로 변환하는 편이 훨씬 의미가 있을 것.
또한, 문장(또는 구)을 이해하는 Object removal 모델은 추후에 음성 인식 모델과 결합하여 human-centered AI를 구현하는 데 가능성을 열어줄 것.
하지만, 이를 위해 VQA라는 고도화된, 무거운 모델이 필요할까?라는 의문이 생겼음. 왜냐하면, 결국 지워야 될 ‘물체’만을 판단하면 되는 데 복잡한 문제를 풀어 정도의 고도화된 ‘추론’까지는 필요하지 않기 때문.
그럼에도 불구하고 실제로 Text를 사용하는 이상 의미 있는 task를 위해서 아래 문장을 이해할 정도의 성능은 필요하다고 생각되며, 이 정도의 성능을 보장하지 못 할 경우 VQA 모델을 수정해서 사용 할 가능성은 열어 두어야 한다고 생각
판단해야 할 문장 수준(?)
(단, 문장은 명제 형식으로 주어져 어느 정도 참과 거짓을 따질 수 있어야 함(지울 object를 구체적으로 명시해주어야 한다). ‘밝은 옷을 입고 있는 남자’ → ‘밝은 파란색 옷을 입고 있는 남자 1명’ 등.. )
장점
단점
이 모델들은 단순히 text(phrase, clause, sentence …)의 형태로 input을 받아 image를 이해한 후 bounding box를 반환하는 모델을 말함. 고도의 추론이 포함되지는 않기에 VQA보다는 간단한 모델이라고 생각함.
Phrase Localization Without Paired Training Examples | Semantic Scholar
Benchmark
Text to Bounding box : O
문장 이해 : O, 다만 성능은 보장 x.
Code
GitHub - josiahwang/phraseloceval: Phrase Localization Evaluation Toolkit
참고로, 해당 논문에는 GitHub - lichengunc/refer: Referring Expression Datasets API 에 나와있는 text<->bounding box data를 test set으로 활용한 듯. 후자의 github의 경우 아래 논문들을 참고했다(큰 활용은 x).
Kazemzadeh, Sahar, et al. "ReferItGame: Referring to Objects in Photographs of Natural Scenes." EMNLP 2014.
Yu, Licheng, et al. "Modeling Context in Referring Expressions." ECCV 2016.
Benchmark
Sentence to Bounding box : O
문장 이해 : O (성능도 좋은듯)
MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase Grounding (aclweb.org)
Benchmark
Sentence to bounding box : O
문장 이해 : O
실행 코드 있음 : python 3.7, pytorch 1.4.0
가장 실현 가능한 연구. 단, 물체를 지우기 위해선 input 문장으로 절이 아니라 구(phrase)를 받아야 하기 때문에(ex; “여자 오른쪽에 있는 파란색 ‘공’”) 이에 대해 bounding box가 제대로 쳐질 지는 판단이 필요할 듯. 다만, bounding box가 제대로 쳐지지 않은 경우 다시 손으로 manual하게 고칠 수 있기 때문에 적당한 성능만 보장하면 될 듯.
Code
Multimodal-Alignment-Framework/model.py at public · qinzzz/Multimodal-Alignment-Framework · GitHub
Zero-shot을 적용한 논문이나, task에 맞지는 않을듯 하다.