[๋…ผ๋ฌธ ๋ฆฌ๋ทฐ] Vision language models are blind ๐Ÿ•ถ๏ธ

litยท2024๋…„ 7์›” 13์ผ
post-thumbnail

Paper Link
Code Link

Abstract

VLMs ๋Œ€ํ˜• ์–ธ์–ด ๋ชจ๋ธ GPT-4o, Gemini-1.5 pro, Claude๋Š” ์ˆ˜๋งŽ์€ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์ดํ•ด๊ฐ€ ๊ฐ€๋Šฅ VLM์„ ์„œ๋น„์Šคํ•˜๊ณ  ์žˆ๊ณ , ๋งŽ์€ ์‹œ๊ฐ ์ดํ•ด ๋ฒค์น˜๋งˆํฌ์—์„œ ๋†’์€ ์ ์ˆ˜๋ฅผ ์–ป๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” BlindTest๋ผ๋Š” 7๊ฐ€์ง€ ์‹œ๊ฐ์ ์ธ ๊ณผ์ œ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.
ํ•ด๋‹น ๊ณผ์ œ๋Š” ์‚ฌ๋žŒ์—๊ฒŒ๋Š” ๋งค์šฐ ์‰ฌ์šด ๊ฒƒ์œผ๋กœ, ์˜ˆ๋ฅผ ๋“ค์–ด ๋‘ ๊ฐœ์˜ ์›์ด ๊ฒน์น˜๋Š”์ง€ ์—ฌ๋ถ€, ๋‘ ๊ฐœ์˜ ์„ ์ด ๊ต์ฐจ๋Š”์ง€ ์—ฌ๋ถ€, ๋‹จ์–ด์—์„œ ์–ด๋А ๊ธ€์ž๊ฐ€ ์›์œผ๋กœ ๋‘˜๋Ÿฌ์‹ธ์—ฌ ์žˆ๋Š”์ง€, ์˜ฌ๋ฆผํ”ฝ๊ณผ ๊ฐ™์€ ๋กœ๊ณ ์—์„œ ์›์˜ ๊ฐœ์ˆ˜๋ฅผ ์„ธ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
์ด๋Ÿฐ ์‰ฌ์šด ๊ณผ์ œ์—์„œ ์ตœ์ฒจ๋‹จ VLM์€ ํ‰๊ท  56.20%์˜ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€์œผ๋ฉฐ Sonnet-3.5๊ฐ€ ๊ฐ€์žฅ ๋†’์€ ์ •ํ™•๋„(73.77%)๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค.

Introduction

GPT-4V(ision)๋กœ ์‹œ์ž‘๋œ VLMs์˜ ๋“ฑ์žฅ์œผ๋กœ ์ธํ•ด ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.
VLMs ์žฅ๋ฉด ๋‚ด์˜ ๊ฐ์ฒด๋ฅผ ์ •ํ™•ํ•˜๊ฒŒ ์‹๋ณ„ํ•˜๊ณ , ๊ฒ€์ถœ๋œ ๊ฐ์ฒด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ณต์žกํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฉ”๋‰ด ์ด๋ฏธ์ง€ ์•ˆ์— ๋งฅ์ฃผ ๋น„์šฉ์„ ์˜ˆ์ธกํ•˜๋Š” ๋“ฑ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด์˜ VLM benchmark๋Š” ๊ด‘๋ฒ”์œ„ํ•œ ์ฃผ์ œ๋ฅผ ๋‹ค๋ฃจ์ง€๋งŒ, ํŠน์ •ํ•œ ํ•œ๊ณ„๋ฅผ ์ง€์ ํ•˜์ง€ ์•Š๊ณ  ์ „์ฒด์ ์ธ ์ธ๊ฐ„๊ณผ LLM ๊ฐ„์˜ ์ฐจ์ด๋ฅผ ์ธก์ •ํ•˜๊ธฐ๋งŒ ํ•ฉ๋‹ˆ๋‹ค.
์˜ˆ๋ฅผ ๋“ค์–ด, ๋งŽ์€ ์งˆ๋ฌธ์—์„œ ์ž…๋ ฅ ์ด๋ฏธ์ง€๊ฐ€ ๋ถˆํ•„์š”ํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค.

  1. ํ…์ŠคํŠธ๋กœ ๊ตฌ์„ฑ๋œ ์งˆ๋ฌธ๊ณผ ์„ ํƒ์ง€๋กœ๋งŒ์œผ๋กœ๋„ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ
  2. VLMs์€ ์ถ”๋ก ์œผ๋กœ ์ด๋ฏธ์ง€๋ฅผ ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ฉฐ ์ธํ„ฐ๋„ท ๊ทœ๋ชจ์˜ ํ›ˆ๋ จ์—์„œ ์•”๊ธฐํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

์š”์•ฝํ•˜๋ฉด, VLM์˜ ๋†’์€ ์ˆ˜์ค€์˜ ํ…Œ์ŠคํŠธ์—์„œ์˜ ์šฐ์ˆ˜์„ฑ์„ ๊ฐ•์กฐํ•˜์ง€๋งŒ ํ˜„์žฌ ๋ฒค์น˜๋งˆํฌ๋Š” ์ธ๊ฐ„์ฒ˜๋Ÿผ ์ด๋ฏธ์ง€๋ฅผ ์ธ์‹ํ•˜๋Š”์ง€๋ฅผ ์ฒดํฌํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.

๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์‹œ๋ ฅ ๊ฒ€์‚ฌ์—์„œ ์˜๊ฐ์„ ๋ฐ›์€ ์ €์ˆ˜์ค€ ์‹œ๊ฐ ๊ณผ์ œ์— ๋Œ€ํ•ด VLMs์˜ ์‹œ๊ฐ ๋Šฅ๋ ฅ์„ ํ…Œ์ŠคํŠธํ•ฉ๋‹ˆ๋‹ค.
GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet, Claude-3.5 Sonnet๋“ฑ ์ตœ์ฒจ๋‹จ VLMs 4๊ฐœ๋ฅผ ํ…Œ์ŠคํŠธํ•ฉ๋‹ˆ๋‹ค.
2D ๊ธฐํ•˜ํ•™์  ์›์‹œ ์š”์†Œ(์˜ˆ: ์„ , ์›, ์‚ฌ๊ฐํ˜•)๋งŒ์„ ํฌํ•จํ•˜๊ณ  ์„ธ๊ณ„ ์ง€์‹์ด ๊ฑฐ์˜ ๋˜๋Š” ์ „ํ˜€ ํ•„์š” ์—†๋Š” 8๊ฐœ์˜ ๋งค์šฐ ๊ฐ„๋‹จํ•œ ์‹œ๊ฐ ๊ณผ์ œ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

ํ•ด๋‹น ์‹คํ—˜์„ ํ†ตํ•ด VLMs์€ ๋งค์šฐ ์ง€๋Šฅ์ ์ธ ์‚ฌ๋žŒ์ด์ง€๋งŒ ๊ทผ์‹œ๋ฅผ ๊ฐ€์ง„ ์‚ฌ๋žŒ๊ณผ ๋†€๋ž๊ฒŒ๋„ ์œ ์‚ฌํ•˜๋‹ค๋Š” ๊ฒƒ์„ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค.

  1. ์ฐจํŠธ ๋ฐ ๋‹ค์ด์–ด๊ทธ๋žจ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์ด์ง€๋งŒ VLms๋Š” ๋‘ ์„ , ๋‘ ์›์ด ๊ต์ฐจํ•˜๋Š”์ง€ ์—ฌ๋ถ€๋ฅผ ์‹ ๋ขฐ์„ฑ ์žˆ๊ฒŒ ํŒ๋‹จํ•˜์ง€ ๋ชป ํ•ฉ๋‹ˆ๋‹ค.
  2. VLMs ์›๊ณผ ๋‹จ์–ด๋ฅผ ๋ณ„๋„๋กœ ์™„๋ฒฝํ•˜๊ฒŒ ์ธ์‹ํ•  ์ˆ˜ ์žˆ์ง€๋งŒ, ์›์ด ๋‹จ์–ด์— ๊ฒน์ณ ์žˆ์„ ๋•Œ ์–ด๋–ค ๊ธ€์ž๊ฐ€ ์›์œผ๋กœ ๋‘˜๋Ÿฌ์‹ธ์—ฌ ์žˆ๋Š”์ง€ ์‹๋ณ„ํ•˜๋Š”๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์Šต๋‹ˆ๋‹ค.
  3. VLMs๋Š” ๋–จ์–ด์ ธ ์žˆ๋Š” ์›๊ณผ ๊ฐ™์€ ๋„ํ˜•์„ ์ •ํ™•ํ•˜๊ฒŒ ์…€ ์ˆ˜ ์žˆ์ง€๋งŒ, ์ค‘์ฒฉ๋œ ์›์„ ์„ธ๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช์Šต๋‹ˆ๋‹ค.
  4. ์‚ฌ๊ฐํ˜•์„ ๊ฒฉ์ž๋กœ ๋ฐฐ์น˜ํ•  ๋•Œ ๊ฒฉ์ž ์‚ฌ๊ฐํ˜•์„ ์„ธ๋Š” ๊ฒƒ๋„ ์–ด๋ ค์›€์„ ๊ฒผ์Šต๋‹ˆ๋‹ค.
  5. ๋‹จ์ˆœํ™”๋œ ์ง€ํ•˜์ฒ  ์ง€๋„์—์„œ 2~8๊ฐœ์˜ ๊ฒฝ๋กœ์™€ ์ด 4๊ฐœ์˜ ์—ญ์ด ์žˆ๋Š” ๊ฒฝ๋กœ๋ฅผ ์ถ”์ ํ•˜๋Š” ๊ณผ์ œ์—์„œ VLMs๋Š” ์ข…์ข… ๊ฒฝ๋กœ๊ฐ€ ๋๋‚˜๋Š” ์œ„์น˜ ์‹๋ณ„์„ ์‹คํŒจํ•ฉ๋‹ˆ๋‹ค.
  6. GPT-4o๋Š” ๋ณต์žกํ•œ VLM ๋ฒค์น˜๋งˆํฌ์—์„œ๋Š” ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€์ง€๋งŒ ์šฐ๋ฆฌ์˜ ์‹คํ—˜์—์„œ๋Š” ๊ฐ€์žฅ ๋‚˜์œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค.

Vision language models

์šฐ๋ฆฌ์˜ ๋ชฉํ‘œ๋Š” ์ตœ์ฒจ๋‹จ VLMs์ด ์ƒํ˜ธ์ž‘์šฉํ•˜๋Š” ์ผ๋ฐ˜์ ์ธ ๊ธฐํ•˜ํ•™์  ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋œ ๊ฐ„๋‹จํ•œ ์ด๋ฏธ์ง€๋ฅผ ์–ด๋–ป๊ฒŒ ์ดํ•ดํ•˜๋Š”์ง€ ์—ฐ๊ตฌํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
GPT-4o, Gemini-1.5 Pro (Gemini-1.5), Claude-3 Sonnet (Sonnet-3), Claude-3.5 Sonnet (Sonnet-3.5)๋ฅผ ๋ณธ ์‹คํ—˜์— ์‚ฌ์šฉํ•˜์˜€๊ณ  ํ•ด๋‹น ๋ชจ๋ธ๋“ค์€ ์ตœ๊ทผ VLM ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ฐ€์žฅ ๋†’์€ ์ˆœ์œ„๋ฅผ ๊ธฐ๋กํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

์‹คํ—˜ ์ค‘ ์ผ๋ถ€ ์ฑ„ํŒ… ์ธํ„ฐํŽ˜์ด์Šค๊ฐ€ APIU ๋Œ€์‘ ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.
์ด๋Š” ์•„๋งˆ๋„ ์ถ”๊ฐ€์ ์ธ ๋ฏธ์„ธ ์กฐ์ •์ด๋‚˜ ํšŒ์‚ฌ์˜ ์ •์ฑ…์— ๋” ์ž˜ ๋งž์ถ”๊ธฐ ์œ„ํ•œ ํŠน์ • ์‹œ์Šคํ…œ ํ”„๋กฌํ”„ํŠธ ๋•Œ๋ฌธ์ผ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
๋งˆ์ฐฌ๊ฐ€์ง€๋กœ perplexity.ai์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” GPT-4o์™€ Claude 3 ๋ชจ๋ธ์ด ์›๋ž˜์˜ API ๋ชจ๋ธ๋ณด๋‹ค ์„ฑ๋Šฅ์ด ๋–จ์–ด์ง€๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฐ ์ด์Šˆ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ์œ„ํ•ด ๊ฐ ์‚ฌ์—์„œ ์ œ๊ณตํ•˜๋Š” API๋ฅผ ํ†ตํ•ด ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

BlindTest benchmark of 7 tasks

Eye exams

์ผ๋ฐ˜์ ์ธ ์‹œ๋ ฅ๊ฒ€์‚ฌ์ฒ˜๋Ÿผ ๊ธฐํ•˜ํ•™์  ์›์‹œ ์š”์†Œ๋กœ ๊ตฌ์„ฑ๋œ 7๊ฐœ์˜ ๊ณผ์ œ๋ฅผ ์„ค๊ณ„ํ•ฉ๋‹ˆ๋‹ค.
๊ธฐ์กด ์‹œํ—˜์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์€ ์ธํ„ฐ๋„ท์— ์กด์žฌํ•˜๋Š” ์งˆ๋ฌธ์„ ํ”ผํ•˜๊ณ , ์˜ˆ๋น„ ์‹คํ—˜์—์„œ VLM์€ ์ผ๋ฐ˜์ ์ธ ์‹œ๋ ฅ ๊ฒ€์‚ฌ๋ฅผ ๋งค์šฐ ์ž˜ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

Motivation

์šฐ๋ฆฌ์˜ BlindTest ๋ฒค์น˜๋งˆํฌ๋Š” ๊ฒน์น˜๊ฑฐ๋‚˜ ๊ฐ€๊นŒ์ด ์žˆ๋Š” ์‹๋ณ„ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ํ…Œ์ŠคํŠธํ•ฉ๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ํ…Œ์ŠคํŠธ๋Š” VLMs๊ฐ€ ์–ด๋ ค์›€์„ ๊ฒช์„ ๊ฒƒ์ด๋ผ๊ณ  ๊ฐ€์ •ํ•˜๋Š”๋ฐ ์ด๋Š” ํฐ ์บ”๋ฒ„์Šค ์œ„์— ์žˆ๋Š” ์ •ํ™•ํ•œ ๊ณต๊ฐ„ ์ •๋ณด๋Š” ์ž์—ฐ์–ด๋กœ ์„ค๋ช…ํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.

Controls

๊ฐ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด, ์šฐ๋ฆฌ๋Š” ๋‘ ๊ฐ€์ง€ ๋‹ค๋ฅธ์ง€๋งŒ ์˜๋ฏธ์ ์œผ๋กœ ๋™์ผํ•œ ์งˆ๋ฌธ์„ ์‚ฌ์šฉํ•˜์—ฌ VLMs๋ฅผ ํ”„๋กฌํ”„ํŠธํ•ฉ๋‹ˆ๋‹ค.
๋˜ํ•œ, ๋™์ผํ•œ ์ด๋ฏธ์ง€๋ฅผ (a) ์„ธ ๊ฐ€์ง€ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€ ํฌ๊ธฐ์™€ (b) ์›์‹œ ์š”์†Œ๋ฅผ ๋ Œ๋”๋งํ•  ๋•Œ ๋‘ ๊ฐ€์ง€ ์„  ๋‘๊ป˜ ๊ฐ’์„ ์‚ฌ์šฉํ•˜์—ฌ ์žฌ์ƒ์‚ฐํ•˜์—ฌ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

Task 1: Counting line intersections

VLMs๊ฐ€ ๋‹ค์ด์–ด๊ทธ๋žจ๊ณผ ์ฐจํŠธ ๊ด€๋ จ ์งˆ๋ฌธ์— ๋Œ€ํ•ด ๋†€๋ผ์šด ์ •ํ™•๋„๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ๊ธฐ ๋•Œ๋ฌธ์— VLMs๊ฐ€ ์ฐจํŠธ์—์„œ ๋‘ ๊ทธ๋ž˜ํ”„๊ฐ€ ๊ต์ฐจํ•˜๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์‹คํ—˜ํ•ด์•ผํ•ฉ๋‹ˆ๋‹ค.
๋‘ ๊ฐœ์˜ ์„ ์˜ ๊ต์ฐจ์  ์ˆ˜๋ฅผ ์„ธ๋„๋ก ์š”์ฒญํ•˜์—ฌ ์ด ๊ฐ€์„ค์„ ํ…Œ์ŠคํŠธํ•ฉ๋‹ˆ๋‹ค.

ํฐ ์บ”๋ฒ„์Šค์— ๊ทธ๋ ค์ง„ 2D ์„  ๊ทธ๋ž˜ํ”„์˜ 150๊ฐœ์˜ ์ด๋ฏธ์ง€๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค(๊ทธ๋ฆผ 1a).
๊ฐ ์„  ๊ทธ๋ž˜ํ”„๋Š” ์„ธ ์ ์œผ๋กœ ์ •์˜๋œ ๋‘ ๊ฐœ์˜ ์„  ์„ธ๊ทธ๋จผํŠธ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, x-์ขŒํ‘œ๋Š” ๊ณ ์ •๋˜๊ณ  ๋™์ผํ•˜๊ฒŒ ๊ฐ„๊ฒฉ์„ ๋‘ก๋‹ˆ๋‹ค.
y-์ขŒํ‘œ๋Š” ์ •ํ™•ํžˆ 0, 1 ๋˜๋Š” 2์ ์—์„œ ๊ต์ฐจํ•˜๋Š” ๋‘ ๊ฐœ์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋ง๋ฉ๋‹ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ

๊ฐ ์งˆ๋ฌธ์€ ๋‘ ๊ฐ€์ง€ ๋‹ค๋ฅธ ํ‘œํ˜„์œผ๋กœ ๋ฌป์Šต๋‹ˆ๋‹ค: 
(1) โ€œํŒŒ๋ž€์ƒ‰๊ณผ ๋นจ๊ฐ„์ƒ‰ ์„  ๊ทธ๋ž˜ํ”„๊ฐ€ ์„œ๋กœ ๋ช‡ ๋ฒˆ ๊ต์ฐจํ•ฉ๋‹ˆ๊นŒ?โ€ 
(2) โ€œํŒŒ๋ž€์ƒ‰๊ณผ ๋นจ๊ฐ„์ƒ‰ ์„ ์ด ๋ช‡ ๋ฒˆ ๊ต์ฐจํ•ฉ๋‹ˆ๊นŒ?โ€

์ •๋‹ต์€ {0, 1, 2} ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค (๋ฌด์ž‘์œ„ ๊ธฐ์ค€ ์ •ํ™•๋„: 33%).

Task 2: Two circles

์œ„์˜ ์‹คํ—˜์—์„œ ๊ต์ฐจํ•˜๋Š” ์ง์„ ์„ ์ด์šฉํ•˜์—ฌ ์‹คํ—˜์„ ์ง„ํ–‰ํ•˜์˜€๋‹ค๋ฉด, ์ด๋ฒˆ ์‹คํ—˜์€ ๋‘ ๊ฐœ์˜ ๊ธธ๊ณ  ์–‡์€ ์ƒ‰๊น” ์›์˜ ๊ต์ฐจ์ ์„ ์ฒดํฌํ•ฉ๋‹ˆ๋‹ค.

ํ•ด๋‹น ๊ณผ์ œ๋Š” ๋‘ ์› ์‚ฌ์ด์˜ ์ž‘์€ ๊ฐ„๊ฒฉ, ๋‘ ์›์ด ๊ฒน์ณ์ ธ ์žˆ๋Š”์ง€๋ฅผ ์ธ์‹ํ•˜๋Š” ์‹คํ—˜์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ

โ€œ๋‘ ์›์ด ์„œ๋กœ ์ ‘์ด‰ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๊นŒ? ์˜ˆ/์•„๋‹ˆ์˜ค๋กœ ๋‹ตํ•˜์„ธ์š”.โ€
โ€œ๋‘ ์›์ด ๊ฒน์น˜๊ณ  ์žˆ์Šต๋‹ˆ๊นŒ? ์˜ˆ/์•„๋‹ˆ์˜ค๋กœ ๋‹ตํ•˜์„ธ์š”.โ€

์ •๋‹ต
๋‘ ์›์ด ๊ฒน์น˜๊ณ  ์ ‘์ด‰ํ•˜๋Š” ๊ฒฝ์šฐ(OO, TT)๋Š” d < 0.0์ž…๋‹ˆ๋‹ค
๊ฒน์น˜์ง€ ์•Š์ง€๋งŒ ์ ‘์ด‰ํ•˜๋Š” ๊ฒฝ์šฐ(Oห‰\bar{O}, TT)๋Š” d = 0.0์ž…๋‹ˆ๋‹ค
๊ฒน์น˜์ง€ ์•Š๊ณ  ์ ‘์ด‰ํ•˜์ง€ ์•Š๋Š” ๊ฒฝ์šฐ(Oห‰\bar{O}, TT)๋Š” d > 0.0์ž…๋‹ˆ๋‹ค(๊ทธ๋ฆผ 2).
๋ฌด์ž‘์œ„ ๊ธฐ์ค€ ์ •ํ™•๋„: 50%.

Task 3: The circled letter

์˜์–ด ๋‹จ์–ด๋ฅผ ์™„๋ฒฝํ•˜๊ฒŒ ์ฝ์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.
๋นจ๊ฐ„ ์›์„ ๋‹จ์–ด์˜ ๊ฐ ๊ธ€์ž์— ํ•˜๋‚˜์”ฉ ๊ฒน์ณ์„œ VLM์—๊ฒŒ ์–ด๋–ค ๊ธ€์ž๊ฐ€ ์›์œผ๋กœ ๋‘˜๋Ÿฌ์‹ธ์—ฌ ์žˆ๋Š”์ง€ ์‹๋ณ„ํ•˜๋„๋ก ์š”์ฒญํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ

"์–ด๋–ค ๊ธ€์ž๊ฐ€ ์›์œผ๋กœ ๋‘˜๋Ÿฌ์‹ธ์—ฌ ์žˆ์Šต๋‹ˆ๊นŒ?"
"์–ด๋–ค ๋ฌธ์ž๊ฐ€ ๋นจ๊ฐ„ ํƒ€์›์œผ๋กœ ๊ฐ•์กฐ๋˜์–ด ์žˆ์Šต๋‹ˆ๊นŒ?"

์ •๋‹ต์€ ์˜ˆ์ธก๋œ ๊ธ€์ž์™€ ์ •ํ™•ํžˆ ์ผ์น˜ํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค(๋Œ€์†Œ๋ฌธ์ž ๊ตฌ๋ถ„ ์—†์Œ).

Task 4: Counting overlapping shapes

๋ถ„๋ฆฌ๋œ ์›์˜ ๊ฐœ์ˆ˜๋ฅผ ์…€ ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ์Šต๋‹ˆ๋‹ค.
์ถ”๊ฐ€์ ์œผ๋กœ ์˜ฌ๋ฆผํ”ฝ ๋กœ๊ณ ์™€ ๊ฐ™์ด ๊ต์ฐจํ•˜๋Š” ์›์„ ์„ธ๋Š” ๊ฒƒ์„ ํ…Œ์ŠคํŠธํ•ฉ๋‹ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ

์ด๋ฏธ์ง€์— {๋„ํ˜•}์ด ๋ช‡๊ฐœ ์žˆ๋‚˜์š”? ์ˆซ์ž ํ˜•์‹์œผ๋กœ ๋‹ตํ•˜์„ธ์š”
์ด๋ฏธ์ง€์—์„œ {๋„ํ˜•}์˜ ๊ฐœ์ˆ˜๋ฅผ ์„ธ์–ด ๋ณด์„ธ์š”
์—ฌ๊ธฐ์„œ {๋„ํ˜•}์€ ์› ๋˜๋Š” ์˜ค๊ฐํ˜•์ž…๋‹ˆ๋‹ค.

์ •๋‹ต์€ {5, 6, 7, 8, 9} ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค (๋ฌด์ž‘์œ„ ๊ธฐ์ค€ ์ •ํ™•๋„: 20%).

Task 5: Counting the nested squares

Task 4์—์„œ ๊ต์ฐจํ•˜๋Š” ์›์„ ์„ธ๋Š” ๋ฐ ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค๋Š” ๋ฐœ๊ฒฌ์„ ํ† ๋Œ€๋กœ ๊ฒน์น˜์น˜ ์•Š๋Š” ์‚ฌ๊ฐํ˜•์˜ ๊ฐœ์ˆ˜๋ฅผ ์ƒˆ๋Š” ํ…Œ์ŠคํŠธ๋ฅผ ์ง„ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ

โ€œ์ด๋ฏธ์ง€์— ์žˆ๋Š” ์‚ฌ๊ฐํ˜•์˜ ์ด ์ˆ˜๋ฅผ ์„ธ์‹ญ์‹œ์˜ค.โ€

์ •๋‹ต์€ {2, 3, 4, 5} ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค(๋ฌด์ž‘์œ„ ๊ธฐ์ค€ ์ •ํ™•๋„: 25%).

Task 6: Counting the rows and columns of a grid

๊ฒน์น˜๊ฑฐ๋‚˜ ์ค‘์ฒฉ๋œ ๋„ํ˜•์„ ํ•ญ์ƒ ์…€ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋ผ๊ณ  ๋ณด์—ฌ์ค๋‹ˆ๋‹ค.
๋„ํ˜•์„ ๊ฒฉ์ž๋กœ ๋ฐฐ์—ดํ•˜๊ณ  VLMs์—๊ฒŒ ๊ฐœ์ˆ˜๋ฅผ ์„ธ๋„๋ก ํ•˜๋Š” ๊ณผ์ œ๋ฅผ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ

โ€œํ–‰๊ณผ ์—ด์˜ ์ˆ˜๋ฅผ ์„ธ๊ณ  ์ค‘๊ด„ํ˜ธ ์•ˆ์— ์ˆซ์ž๋กœ ๋‹ตํ•˜์„ธ์š”. ์˜ˆ: rows={5} columns={6}โ€
โ€œํ‘œ์— ์žˆ๋Š” ํ–‰๊ณผ ์—ด์˜ ์ˆ˜๋Š” ๋ช‡ ๊ฐœ์ž…๋‹ˆ๊นŒ? ์ˆซ์ž ์Œ(ํ–‰, ์—ด)์œผ๋กœ๋งŒ ๋‹ตํ•˜์„ธ์š”."

์ •๋‹ต์€ ํ–‰๊ณผ ์—ด์˜ ์ˆ˜๋ฅผ ๋ชจ๋‘ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ๋‹ต๋ณ€์€ ํ–‰๊ณผ ์—ด์˜ ์ˆ˜๊ฐ€ ๋ชจ๋‘ ์ •ํ™•ํ•˜๊ฒŒ ์˜ˆ์ธก๋˜์—ˆ์„ ๋•Œ ์ •๋‹ต์œผ๋กœ ๊ฐ„์ฃผ๋ฉ๋‹ˆ๋‹ค.

Task 7: Following single-colored paths

๋‹จ์ˆœํ™”๋œ ์ง€ํ•˜์ฒ  ์ง€๋„์—์„œ ๋‘ ์ง€์ •๋œ ์—ญ ์‚ฌ์ด์˜ ๊ณ ์œ ํ•œ ์ƒ‰์ƒ ๊ฒฝ๋กœ์˜ ์ˆ˜๋ฅผ ์„ธ๋„๋ก ์š”์ฒญํ•ฉ๋‹ˆ๋‹ค.

ํ”„๋กฌํ”„ํŠธ

"A์—์„œ C๊นŒ์ง€ ๊ฐ€๋Š” ๋‹จ์ƒ‰ ๊ฒฝ๋กœ๋Š” ๋ช‡ ๊ฐœ์ผ๊นŒ์š”? ์˜ˆ๋ฅผ ๋“ค์–ด {3}๊ณผ ๊ฐ™์ด ๊ด„ํ˜ธ ์•ˆ์˜ ์ˆซ์ž๋กœ ๋‹ตํ•˜์„ธ์š”."
"A์—์„œ C๋กœ ๊ฐ€๋Š” ๋‹จ์ƒ‰ ๊ฒฝ๋กœ๋ฅผ ์„ธ์–ด ๋ณด์„ธ์š”. ์˜ˆ๋ฅผ ๋“ค์–ด {3}๊ณผ ๊ฐ™์ด ๊ด„ํ˜ธ ์•ˆ์˜ ์ˆซ์ž๋กœ ๋‹ตํ•˜์„ธ์š”."์˜ ํ˜•ํƒœ๋กœ ์งˆ๋ฌธํ•ฉ๋‹ˆ๋‹ค.

์ •๋‹ต์€ {0, 1, 2, 3} ์ค‘ ํ•˜๋‚˜์ž…๋‹ˆ๋‹ค(๋ฌด์ž‘์œ„ ๊ธฐ์ค€ ์ •ํ™•๋„: 25%).

Results

Discussion and Conclusion

์šฐ๋ฆฌ๋Š” ์ตœ์ฒจ๋‹จ VLMS๊ฐ€ 5์‚ด ์–ด๋ฆฐ์•„์ด๋„ ์‰ฝ๊ฒŒ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋Š” ๊ณผ์ œ์—์„œ๋„ ์—ฌ์ „ํžˆ ์–ด๋ ค์›€์„ ๊ฒช๊ณ  ์žˆ๋‹ค๋Š” ๊ฒฐ๊ณผ๋ฅผ ํ™•์ธํ–ˆ์Šต๋‹ˆ๋‹ค.
๊ธฐ์กด VLMs๊ฐ€ ํ•™์Šตํ•˜์ง€ ์•Š์•˜์ง€๋งŒ ๋‚œ์ด๋„๊ฐ€ ๋‚ฎ์€ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜์ง€ ๋ชป ํ•˜๋Š” ๋ชจ์Šต์€ ์ด์ „ ๋ฒค์น˜๋งˆํฌ์˜ ๋ฌธ์ œ์„ฑ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
BlindTest์—์„œ VLMs์˜ ์ €์กฐํ•œ ์„ฑ๋Šฅ์€ ๋ชจ๋ธ์ด ์‹ค์ œ ์„ธ๊ณ„์˜ ์‹œ๊ฐ์  ๊ณผ์ œ์—์„œ ์ž˜ ์ˆ˜ํ–‰๋˜์ง€ ์•Š์„ ๊ฒƒ์ž„์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

profile
AI Researcher

0๊ฐœ์˜ ๋Œ“๊ธ€