Paper Review: Molmo and PixMo

gitae lee·2026년 2월 21일

paper review

목록 보기
1/13

CVPR 2025.
Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi
Allen Institute for AI | University of Washington | University of Pennsylvania

25 Sep 2024


💡 Key Point

정교하게 설계된 데이터셋과 학습 패러다임만으로도, 독점(proprietary) 모델에 의존하지 않는 경쟁력 있는 VLM을 만들 수 있다!

1. Motivation

VLM의 현재 실태

  • 최근 가장 뛰어난 성능을 보이는 VLM은 대부분 데이터셋, 가중치 등을 공개하지 않는 ‘Proprietary(독점) 모델’
  • 이에 따라 여러 연구들은 독점 모델에 준하는 성능을 ‘Open 기반 모델’로 재현하려는 시도를 해왔음
    • 초기 연구는(ex.LLaVa) 완전한 오픈 데이터, 언어 모델로 VLM을 구축했지만 SOTA proprietary VLM와 큰 성능 격차가 존재
    • 이후 연구는 ‘개방성’을 줄이는 추세로 변화함, 독점 VLM이 생성한 합성 데이터에 크게 의존하는 형태로 바뀜 → 많은 open VLM들은 proprietary VLM의 증류본 형태

⇒ 독점 VLM의 지식을 사용하지 않고, 처음부터 성능이 뛰어난 ‘오픈형 VLM’을 구축하는 근본적인 방법을 놓치고 있는 상태

2. Insight

학습에 필요한 ‘high-quality 멀티모달 데이터 확보’가 핵심

1) VLM의 성능은 LLM의 성능보다 ‘데이터’에 달려있다

  • 기존 open VLM 연구는 저성능의 원인으로 언어 모델의 규모나 추론 능력의 부족으로 꼽았음
  • 하지만 Molmo(제안한 데이터셋)는 오픈 LLM(OLMo, Qwen)으로도, 어떤 시각-언어 데이터를 학습했는지에 따라 성능이 크게 달라진다는 것을 발견함

⇒ VLM의 성능은 LLM 자체가 아니라 시각 정보를 어떻게 구조화시켜 언어 모델에 전달했는지에 달림

2) 훈련 데이터는 ‘사람의 시각적 인식’으로 만들어진 데이터여야 한다

  • 기존 VLM의 데이터셋은 대부분 proprietary VLM이 생성한 증류 기반 데이터에 의존함(캡션, QA 등)
  • 이것은 성능 향상에는 도움이 되지만, 시각 이해의 근원이 결국 폐쇄형 모델의 한계를 상속받게 됨
  • Molmo는 사람이 이미지를 보고 자연스럽게 설명,질문,지시하는 과정을 데이터로 수집함으로써 모델에게 ‘인지 능력’을 확장시킴

3) 오픈형 VLM은 결국 어떻게 모델을 설계했냐에 따라 달려있다

  • 단순히 가중치를 공개하는 것만으로는 proprietary VLM의 성능에 준하지 못함
  • Molmo는 공개 가능한 데이터 + 공개된 weight LLM + 명확한 학습 레시피를 통해 독점 VLM의 증류 없이도 고성능 VLM 설계가 가능함을 보여줌

⇒ Open VLM 연구의 초점을 ‘어떤 모델을 쓰는가’에서 ‘어떤 데이터로 어떻게 학습시키는가’로 변화시킴

3. Architecture: Molmo

구조: Image → Pre-processor → ViT Encoder → Connector → LLM

(텍스트는 기존 LLM 토크나이저 그대로 사용)

1) Pre-processor

  • Multi-scale + Multi-crop: 전체 이미지(저해상도) + 잘게 나눈 여러 개의 정사각형 crop(고해상도)을 동시에 참고해, 전체 맥락 & 디테일한 요소를 동시에 봄
  • Overlapping Crop 사용: Crop끼리 ‘살짝 겹치게’ 자름 → 경계 패치에서 문맥이 끊기는 현상을 방지 = 모든 패치는 최소 한 번은 충분한 문맥을 가지게 됨

2) ViT Encoder

  • CLIP ViT-L/14(336px) 인코더를 사용
  • ViT는 LLM과 관련 없이, 순수한 이미지 feature 추출기로 사용

3) Connector

  • Input: 다양한 깊이의 layer 정보를 concat한 patch feature
    • 풀링 1: patch window pooling (정보 압축)
    • 풀링 2: attention pooling (어떤 정보가 중요한지 학습)
    • MLP projection: 비전 feature를 LLM 임베딩 공간으로 변환
  • Output: LLM의 텍스트 토큰과 같은 차원인 비전 토큰들

4) LLM

  • 비전 토큰 + 텍스트 토큰을 같은 시퀀스로 받음
  • LLM 구조는 기존의 일반적인 Decoder-only LLM을 사용

※ 특징 1) Vision 토큰 배열 방법

  • (left-to-right & top-to-bottom) + (Low-res full image → High-res crops) + (시작/끝, 줄바꿈 토큰)

     ⇒ 이미지의 공간 순서 따라 + 글로벌하게 보다가 디테일을 확인 + 2D 구조를 1D 시퀀스로 변환

※ 특징 2) 텍스트 전용 Dropout

  • 종종 dense caption, QA 학습 시 LLM이 language prior에 의존하는 경우 발생
  • Pre training 중에만 텍스트 토큰에 dropout → 훈련 중 이미지 정보를 더 잘 참고하도록 유도

※ 특징 3) 다중 주석 이미지

  • 하나의 이미지 토큰에 여러 개의 QA 쌍을 가지게 설계 + 각 QA는 다른 QA들을 못 보게 설계
  • 처리 이미지 수가 감소 + 학습 시간이 절반 이상 단축됨

4. Dataset: PixMo

총 7개 dataset = Human-annotated(3) + Synthetic(4)

1) Human-annotated(3개)

  1. Cap - 사람이 직접 말로 이미지를 설명한 캡션 → 구두적 설명으로 인해 시각 이해 능력의 뿌리를 다짐
  2. AskModelAnything - 사람이 던질 수 있는 모든 질문에 대응 → 실사용용 QA 분포에 가까운 데이터 확보
  3. Points - 사람이 직접 대상을 점(point)으로 가리킨 데이터를 수집 → 질문에 대한 답변을 point 형태로 빠르고 정확하게 제공할 수 있음

2) Synthetic(4개)

  1. CapQA - PixMoCap 캡션을 활용해 질문-답변 쌍을 생성함 → 캡션을 지식 소스로 쓰는 훈련을 수행
  2. Docs - 모델의 문서/차트/도표 이해력을 높이기 위해 → LLM이 이미지 생성 코드를 작성 후 렌더링
  3. Clocks - 모델의 시간 읽기 능력을 높이기 위해 → 시계 바디, 시계 페이스 데이터로 아날로그 시계를 읽는 법을 훈련함
  4. Count - 이미지에서 객체의 정확한 개수와 위치를 판단하기 위해서 → non-VLM object detector로 객체를 탐지하고, 해당 클래스에 포함된 인스턴스의 중심 좌표를 전부 추산한 뒤, 총량을 계산

5. Experiment Analysis

※ 핵심: Molmo는 ‘Score가 잘 나오게 만든 모델’이 아닌, 벤치마크와 실제 사용자 선호가 동시에 강함을 입증하려는 모델

1) Academic 벤치마크 (정량, 재현 가능)

  • 매우 작은 모델(1B)부터 중간급 모델(7B)까지 독점 모델(GPT-4V, Claude)과 거의 동등한 성능을 달성
  • 자연 이미지 QA, VQA, OCR에서 준수한 성능을 보여 ‘실제 사용자에게 강한 VLM’이라는 것을 증명함
  • 특히 ‘Counting’ 지표가 압도적으로 높음 = Pointing 기반 학습과 point→count 방식의 효과가 명확함

2) Human 평가 (실사용 관점)

  • Academic 벤치마크 결과와 human preference가 전반적으로 일관됨
  • 이미지 설명, 자연 이미지 이해, counting/시각적 grounding에서 높은 사용자 선호도 기록
  • 일부 모델(Qwen2-VL)은 벤치마크 성능에 비해 human 평가에서 낮은 선호를 보임

⇒ 항상 “벤치마크 최적화 = 사용자 만족”으로 이어지지 않는다는 점을 명확히 보여줌

3) Ablation: Model

  • Vision 인코더는 CLIP / SigLip / MetaCLIP 간 성능 차이가 거의 없음
    → 비싼 proprietary 인코더 없이, 완전한 open형 인코더로도 충분히 경쟁이 가능
  • 이미지 해상도 / Crop 수 증가 시 성능 향상 → 공간 정보, 시각적 디테일 요소는 여전히 중요한 역할
  • 텍스트 dropout 진행 시 caption 성능의 개선 → 실제 모델의 시각 이해를 강화하는데 도움이 됨

4) Ablation: Data

  • PixMo-Cap 데이터 규모 증가에 따라 caption 성능과 벤치마크 성능이 일관되게 향상됨

  • Noisy한 대규모 데이터는 동일 규모에서도 효과가 제한적

    ⇒ 결국 데이터는 양보다 품질과 구성 방식이 더 중요하다

6. Significance of Paper

1) Open가중치&데이터로도 독점 모델에 준하는 VLM 구축이 가능함을 보여줌

  • 본 VLM은 완전한 Open LLM + 비전 인코더 기반임에도 GPT, Claude 같은 독점 VLM과 경쟁 가능한 성능을 보임
  • 특히 counting, 이미지 설명, 자연 이미지 이해 등 실사용적인 능력에서 독점 모델과의 격차를 크게 줄임

⇒ Open형 VLM 개발 분야에 ‘재현성’과 ‘확장성’을 갖춘 효율적인 방향을 제시함

2) VLM의 성능은 결국 고품질 데이터의 설계가 큰 비중을 차지한다

  • PixMo-Cap, PixMo-AskModelAnything 같이 사람의 작업이 적극적으로 들어간 고품질 데이터셋은 noisy한 대규모 데이터보다 훨씬 효과적임을 보여줌
  • 데이터 규모 보다 다양성, 질문 유형, 실제 사용자 질문과의 매칭이 VLM 성능에 더 큰 영향을 미침
  • 향후 VLM 연구에서 데이터셋의 설계가 모델 구조만큼 중요한 부분이라는 것이 명시함

3) VLM 평가와 학습 패러다임에 대한 새로운 관점을 제시

  • Molmo는 단순히 학술적 벤치마크 달성만이 아닌, 사람 선호와 실제 사용 시나리오까지 고려해 현실성을 중요시하였음
  • VLM의 추론은 ‘LLM의 텍스트 추론’이라는 관점에서 벗어나, 시각적인 중간 추론 과정 자체를 학습시키는 방법으로 접근했음
  • 결과적으로 Molmo VLM은 ‘무엇을 학습시키는가’ + ‘어떻게 평가할 것인가’에 대한 기준을 다시 생각해본 결과

7. Future Directions

1) PixMo의 확장: ‘확신도 판단’ 데이터셋

VLM이 아직 약한 능력: 불확실성 인식

  • 여전히 VLM은 시각적 근거가 불충분하거나 애매한 상황에서도 답변을 생성하려는 경향이 있음
  • 보이지 않음 ↔ 추론 불가 ↔ 확실함을 명확히 구분하지 못하는 상태
  • VLM의 데이터셋에는 항상 정답이 존재하는 문제 위주였기 때문에, 모델은 답변을 생성하는 쪽으로만 최적화되어있음

아이디어: 대답 가능성을 판단하는 데이터셋

  • 핵심: 사람이 이미지와 질문을 보고, ‘대답이 가능한지’를 먼저 판단하도록 하는 데이터셋
  • 사람(어노테이터)에게 3가지로만 Label을 구성하도록 하게 하는 것 - 확실히 식별 가능 - 애매하거나 불확실 - 이미지로 알 수 없음
  • 근거의 역할로, 이유(reason)도 같이 정답에 포함시키면 더욱 효과적일 것이라고 생각되어짐
    • label: 애매하거나 불확실 / reason: 양손을 다 사용하고 있어 왼손잡이인지 모름
    • label: 이미지로 알 수 없음 / reason: 얼굴이 가려져 있어 표정을 알 수 없음
  • 이로 인해 모델이 이 질문은 ‘답변해야 하는지’ / ‘확신을 낮추고 답변해야 하는지’ / ‘답변을 거부하거나 유보해야 하는지’를 학습할 수 있을 것이라고 기대된다

Pros & Cons

  • Pros: 모델 구조 변경 없이 데이터셋 중심 기여로 적용이 가능하다, 할루시네이션 현상을 구조적으로 완화할 수 있을 것 같다
  • Cons: 필연적으로 어노테이션 비용이 증가할 것이다, 사람마다 ‘애매함’의 기준이 다르기 때문에 명확한 가이드라인이 필요할 것으로 보인다

0개의 댓글