Raven’s Progressive Matrices(RPMs) task를 SOTA Vision-Language Models (VLMs) 해결해 보도록 하여 VLM이 visual clues에만 의존하는 reasoning에는 취약하다는 blindspot(약점)을 찾아냄.
최근 LLM을 기반으로한 여러 VLMs들은 vision-based reasoning, understanding 등의 task에서 좋은 성능을 보였다. 심지어 입력받은 image에 작성되어 있는 Text 정보를 추출하고 이를 기반으로 사고 및 판단도 가능하였다.
본 논문에서는 정교하고 연역적인 추론이 필요한 RPM 문제를 모델에게 해결하도록 하여 VLMs가 가지고 있는 한계에 대해 분석해 보고자 한다.
RPM을 풀기 위해서는 다음과 같은 단계가 필요하다.
RPM 문제 예시

기존의 image reasoning task들과는 다르게 RPM은 아래와 같은 challenge를 요구한다.
본 논문의 contribution은 아래와 같다.
Dataset
Model
GPT4-V, Gemini-pro, Qwen-VL-Max, LLaVA-1.5-13B 사용Prompt
단계적으로 지시를 하는 prompt를 제공하여 단계적으로 옳은 답변을 추론하도록 prompt를 설계함
Evaluation
- Entropy : 한 문제에 대해 10개의 choice 집합 C가 있을 때 엔트로피 S는 아래와 같음
LLM에 사용되는 전략이 VLM에 먹힐까?


이미지로 예시를 줬을 때 정확도가 떨어지고, text가 들어가면 정확도가 올라가는 것으로 보아, 모델이 그냥 in-context든 query든 이미지 자체를 이해를 잘 못하고 있다는 것을 확인할 수 있었음.
모델이 textual token보다 image token을 더 이해하기 힘들어하며, 텍스트를 더 사용한다는 것을 알 수 있음.
왜 VLM의 성능이 낮은지 파악하기 위해, RPMs을 3개의 난이도로 나누었다.
[M-Easy, M-Medium, M-Hard]
Evaluation 또한 3개의 연속된 단계로 나누었다.
Task 인지능력이 어떠냐?
이를 평가하기 위해 VLM이 RPM Figure를 잘 묘사하는지 물어봄. Real-life photo에서 좋은 captioning 성능을 보이는 VLM들이 간단한 패턴 조차 파악을 잘 못하는 것을 발견
2가지 major 한 error를 발견
VLM이 real-world image를 기반으로 주로 학습되었기 때문에 추상적인 패턴을 파악하는데 어려움을 겪을 수 있을 것이라고 저자들은 판단함.
RPM으로 fine-tuning하면 성능을 올라가겠지만, 본질적인 문제 (Compounding, confounding)는 해결하지 못할 것이라고 예상.
연역적인 추론을 잘 하냐?
위의 성능평가 지표들은 이미지로부터 바로 답변을 생성하도록 해서, 이미지 안의 문제를 분리하고 사고하기 어려운 구조였음.
그래서 독자들이 context image에 대한 text description을 만들어서 모델에 제공해봄.
위 지표에서 중요한 것은 복잡한 spatial layout이나 relational reasoning이 필요할 때, text 정보 만으로는 추론을 하기에 부족하고 visual 정보가 모델 입장에서 유용하게 사용될 수 있다는 점.
(Hard한 문제에서 visual 이 같이 있는게 성능이 제일 좋고, visual이 빠지면 성능이 엄청 내려감)
또한 모델이 자체적으로 생성한 description도 성능 향상에 도움이 될 수 있음.
(논문에서 noisy description이라고 표현함)
VLM이 가설 증명을 잘 하느냐?

일단 rationale을 추가로 제공하는 것이 모델 성능 향상에 큰 도움이 안 됨.
모델에 생성한 정답이 틀리면 대부분 Rationale도 같이 틀림.
모델에서 연역적 추론을 위해 가설을 생성하는 것과 이를 증명하는 사고가 연결되어 있음을 증명.
GPT-4V와 같은 강력한 모델들은 grid만 보고 답변을 우다다다 생성하는 것이 아니라,
선택지에서 정답을 제외하는 것과 같이, 사람처럼 정답 선택지와 grid를 함께 고려하는 사고를 함.
프롬프트의 format이 모델 성능에 영향을 주는가?
[{BEGIN/END}_OF_EXAMPLE] 등의 사용이 성능에 영향을 줌.Perceptual understanding이 performance bottleneck이었다.
텍스트를 제공받으면 더 잘하더라.
Contrastive learning이나 Reinforcement learning이 visual deductive reasoning 능력에 도움을 줄 수도 있을 것 같다.