
멀티모달 AI를 보면 종종 이상한 장면을 마주한다.
이미지 안에 무엇이 있는지는 꽤 잘 설명한다.
사람, 버튼, 표, 화살표, 지도, 미로 같은 요소를 보고 말로 풀어내는 능력은 빠르게 좋아졌다.
그런데 막상 “그중 정확히 어느 것인가”를 계속 추적하게 만들면 성능이 흔들린다.
예를 들어 이미지에 비슷하게 생긴 버튼이 여러 개 있다고 해보자.
모델은 “오른쪽 아래에 있는 제출 버튼이 보인다”고 말할 수 있다.
하지만 실제로 그 버튼을 클릭해야 하는 에이전트라면 이야기가 달라진다.
“오른쪽 아래”라는 말만으로는 충분하지 않다.
정확한 좌표나 영역을 알아야 한다.
이 차이가 바로 최근 멀티모달 AI에서 말하는 Reference Gap이다.
Reference Gap은 간단히 말하면
AI가 본 대상을 자연어만으로 정확히 가리키지 못하는 문제다.
멀티모달 모델은 이미지 속 객체를 인식할 수 있다.
하지만 인식한 객체를 추론 과정 내내 정확히 붙잡고 있는 것은 또 다른 문제다.
즉, 문제는 “보지 못한다”가 아니라
“본 것을 정확히 참조하지 못한다”에 가깝다.
예를 들어 모델이 다음처럼 말할 수 있다.
왼쪽에 있는 사람을 보세요.
하지만 실제 이미지에 사람이 여러 명 있고, 서로 겹쳐 있거나 비슷한 위치에 있다면
“왼쪽에 있는 사람”이라는 표현은 금방 애매해진다.
이미지를 설명하는 것과
이미지 속 특정 대상을 정확히 고정해서 추론하는 것은 다르다.
Reference Gap은 바로 이 사이의 간극이다.
멀티모달 AI에서 지금까지 많이 다뤄진 문제는 Perception Gap이었다.
Perception Gap은 쉽게 말해
모델이 이미지를 충분히 잘 보지 못하는 문제다.
작은 글자를 못 읽거나, 작은 물체를 놓치거나, 이미지의 디테일을 제대로 인식하지 못하는 문제가 여기에 해당한다.
그래서 많은 연구는 다음 방향으로 발전해왔다.
이런 접근은 “더 잘 보게 만드는 것”에 가깝다.
하지만 Reference Gap은 다르다.
Perception Gap이 “잘 보느냐”의 문제라면,
Reference Gap은 “본 것을 정확히 가리키며 생각하느냐”의 문제다.
모델이 “사람이 5명 있다”고 말하는 것과
그 5명을 이미지에서 하나씩 정확히 짚어내는 것은 다르다.
모델이 “미로에서 왼쪽으로 가면 된다”고 말하는 것과
현재 위치에서 어느 경로를 따라가야 하는지 좌표로 추적하는 것도 다르다.
전자는 설명이고, 후자는 참조다.
사람끼리 대화할 때는 “저기”, “오른쪽”, “위에 있는 것”, “방금 말한 그 버튼” 같은 표현이 꽤 잘 통한다.
우리는 눈짓, 손가락, 맥락, 주변 상황을 함께 사용하기 때문이다.
하지만 모델에게 자연어만 주면 문제가 생긴다.
“왼쪽에 있는 사람”이라고 했을 때
왼쪽 기준이 이미지 전체인지, 특정 객체 기준인지, 보는 사람 기준인지 애매할 수 있다.
“세 번째 박스”라고 했을 때도
정렬 기준이 위에서 아래인지, 왼쪽에서 오른쪽인지 불분명할 수 있다.
“화살표가 가리키는 노드”라고 해도
화살표가 여러 개라면 참조 대상은 쉽게 흐려진다.
이 문제는 단순한 언어 표현의 문제가 아니다.
AI가 실제 공간을 다루는 방식의 문제다.
Reference Gap이 중요한 이유는
AI가 이제 단순히 이미지를 설명하는 단계에서 벗어나고 있기 때문이다.
예전에는 모델에게 이런 질문을 많이 했다.
이 이미지에 뭐가 있어?
이 경우에는 대략적인 설명만으로도 어느 정도 쓸모가 있었다.
하지만 에이전트 시대에는 요구가 달라진다.
모델은 화면을 보고 버튼을 눌러야 한다.
표를 읽고 특정 셀을 찾아야 한다.
지도나 미로에서 경로를 따라가야 한다.
이미지 속 여러 객체를 세고 비교해야 한다.
다이어그램에서 특정 노드와 연결선을 추적해야 한다.
이때는 “대충 이해했다”로는 부족하다.
실제 행동으로 이어지려면
모델이 정확한 대상을 계속 붙잡고 있어야 한다.
AI가 “저 버튼을 누르면 됩니다”라고 말하는 것과
실제로 그 버튼을 누르는 것은 다르다.
AI가 “세 번째 항목을 선택하세요”라고 말하는 것과
진짜 세 번째 항목의 화면 좌표를 찾아내는 것도 다르다.
설명형 AI에서는 Reference Gap이 눈에 덜 띈다.
하지만 행동형 AI에서는 바로 치명적인 문제가 된다.
DeepSeek이 제안한 방향은 Visual Primitives다.
여기서 말하는 visual primitives는 점, 좌표, bounding box 같은 시각적 단위다.
핵심 아이디어는 단순하다.
모델이 말로만 생각하지 말고, 점과 박스를 찍으면서 생각하게 하자.
사람도 복잡한 이미지를 볼 때 비슷하게 행동한다.
사람 수를 셀 때 손가락으로 하나씩 짚는다.
미로를 풀 때 선을 따라간다.
지도에서 경로를 찾을 때 현재 위치와 다음 지점을 눈으로 연결한다.
Visual Primitives 방식은 이 행동을 모델의 추론 과정 안으로 가져온다.
이미지를 보고 바로 텍스트 답변을 만드는 것이 아니라,
중간에 점이나 박스 같은 참조 단위를 사용해 대상을 고정한다.
말하자면 모델의 사고 과정에 “손가락”을 붙이는 것이다.
가장 쉬운 예시는 객체 세기다.
이미지 속에 컵이 여러 개 있다고 하자.
모델이 바로 “컵은 7개입니다”라고 말하면
이 답이 실제로 어디에서 나온 건지 확인하기 어렵다.
비슷한 물체가 섞여 있으면
빠뜨리거나 중복해서 셀 가능성도 있다.
하지만 모델이 먼저 컵마다 bounding box를 치고,
그 박스 수를 센다면 이야기가 달라진다.
답이 더 검증 가능해진다.
어떤 컵을 셌고, 어떤 컵을 빠뜨렸는지 사람이 확인할 수 있다.
모델 스스로도 같은 대상을 계속 참조하기 쉬워진다.
미로 문제도 마찬가지다.
“왼쪽으로 가고, 아래로 가고, 다시 오른쪽으로 간다” 같은 텍스트 설명은
길어질수록 헷갈린다.
하지만 경로를 점의 연속으로 표시하면
현재 위치와 다음 위치가 훨씬 분명해진다.
Reference Gap을 줄인다는 건 결국 이 차이다.
모델이 말로만 떠올리는 것이 아니라,
실제 위치에 사고를 고정하는 것이다.
Reference Gap은 비전 모델 연구자만 알아야 하는 개념이 아니다.
앞으로 AI 에이전트를 만드는 개발자에게도 중요한 기준이 될 가능성이 높다.
특히 화면을 조작하는 에이전트를 만들 때는
텍스트 추론만 믿으면 안 된다.
모델이 “설정 버튼을 누르겠다”고 말하는 것과
실제 화면에서 설정 버튼의 위치를 정확히 찾는 것은 다르다.
그래서 좋은 에이전트 구조는 앞으로 다음을 더 중요하게 보게 될 것이다.
첫째, 모델이 어떤 대상을 보고 있는지 드러내야 한다.
둘째, 말로 된 판단과 좌표 기반 판단을 분리하지 말아야 한다.
셋째, 클릭이나 선택 같은 행동은 자연어 설명이 아니라 검증 가능한 참조를 기반으로 해야 한다.
쉽게 말해, 에이전트가 화면을 “이해한다”고 주장하는 것만으로는 부족하다.
정말 이해했다면
어디를 보고 있는지, 무엇을 선택하려는지, 왜 그 대상인지까지 추적 가능해야 한다.
AI 환각은 보통 “없는 사실을 만들어내는 문제”로 이해된다.
하지만 멀티모달 환경에서는 조금 다른 형태로 나타난다.
모델이 이미지를 보고 있는 것처럼 말하지만,
실제로는 특정 객체를 잘못 참조할 수 있다.
A 버튼을 보고 있다고 생각했는데 B 버튼을 설명할 수 있다.
왼쪽 사람을 말한다고 했지만 중간 사람의 특징을 섞어 말할 수 있다.
표의 두 번째 행을 말하면서 세 번째 행의 값을 가져올 수 있다.
이런 오류는 단순한 지식 환각과 다르다.
대상을 잘못 붙잡는 환각이다.
Reference Gap을 줄이면 이런 오류를 줄일 수 있다.
모델의 말이 실제 좌표나 영역에 묶이기 때문이다.
물론 점과 박스를 넣는다고 모든 문제가 해결되는 것은 아니다.
시각적 참조를 만들려면
모델 구조, 학습 데이터, 평가 방식이 함께 바뀌어야 한다.
또 좌표를 찍는 능력이 좋아져도
그 좌표의 의미를 잘못 해석하면 여전히 틀릴 수 있다.
복잡한 UI, 겹쳐 있는 객체, 작은 텍스트가 많은 화면에서는
참조 자체가 어려울 수 있다.
그리고 Reference Gap을 줄이는 것이
곧 전체 지능의 향상을 의미하지는 않는다.
이 개념은 멀티모달 AI가 겪는 중요한 병목 중 하나를 설명하지만,
AI의 모든 문제를 해결하는 만능 해법은 아니다.
Reference Gap은 AI가 “볼 수 있는가”보다 한 단계 더 들어간 질문이다.
이제 중요한 건 단순히 이미지 안에 무엇이 있는지 맞히는 것이 아니다.
AI가 그 대상을 계속 정확히 가리키며 생각할 수 있는지가 중요하다.
멀티모달 AI가 설명형 도구에서 행동형 에이전트로 넘어가려면
이 문제는 반드시 해결되어야 한다.
버튼을 누르고, 경로를 따라가고, 객체를 세고, 표를 읽고, 화면을 조작하는 순간
AI는 자연어만으로는 부족하다.
결국 Reference Gap은 이렇게 정리할 수 있다.
AI가 보는 것과, 그것을 정확히 가리키며 추론하는 것 사이의 간극
앞으로의 멀티모달 AI는 더 잘 보는 모델이 아니라,
자기가 본 것을 끝까지 놓치지 않는 모델로 발전해야 한다.
DeepSeek Thinking with Visual Primitives
https://github.com/deepseek-ai/Thinking-with-Visual-Primitives
Visual Spatial Reasoning 논문
https://arxiv.org/abs/2205.00363