๐Ÿง‘โ€๐Ÿ’ปํ•œ๊ตญ์˜ ๊ธฐ์—…๋“ค์€ Data-Centric AI์— ์–ผ๋งˆ๋‚˜ ์ค€๋น„๋˜์–ด ์žˆ์„๊นŒ? ํ›„๊ธฐ ๋ฐ ์ •๋ฆฌ

Kangyeol Kimยท2022๋…„ 1์›” 1์ผ
0

TL;DR

ย  Superb AI์˜ Whitepaper: "ํ•œ๊ตญ์˜ ๊ธฐ์—…๋“ค์€ Data-Centric AI์— ์–ผ๋งˆ๋‚˜ ์ค€๋น„๋˜์–ด ์žˆ์„๊นŒ?"๋ฅผ ์ฝ๊ณ  ์ฐธ๊ณ ํ•˜์—ฌ ์ž‘์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Data-Centric AI์— ๋Œ€ํ•œ ๊ฐœ๋…๊ณผ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด์„œ ์‹œ์Šคํ…œ์ ์œผ๋กœ ์ ‘๊ทผํ•˜๊ธฐ ์œ„ํ•œ ๊ณ ๋ ค์‚ฌํ•ญ๋“ค์„ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

๋ฐฐ๊ฒฝ

ย  ์ธ๊ณต์ง€๋Šฅ ์—ฐ๊ตฌ๋ฅผ ์ง„ํ–‰ํ•˜๋ฉด์„œ ๋ฐ์ดํ„ฐ์˜ ์ค‘์š”์„ฑ์„ ๋Š๋ผ์ง€ ๋ชปํ•œ ์‚ฌ๋žŒ์€ ์—†์„ ๊ฒƒ ์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ค‘์š”๋„์— ๋น„ํ•ด ๋Œ€๋‹ค์ˆ˜์˜ ๋…ผ๋ฌธ๋“ค์—์„œ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ฐœ๋ฐœ์— ์ง‘์ค‘๋˜์–ด ์žˆ๋Š” ๊ฒƒ์ด ์‚ฌ์‹ค์ž…๋‹ˆ๋‹ค (Model-Centric AI). ์ตœ๊ทผ์— ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ๋“ค์ด ์‚ฐ์—…๊ณ„์— ๋„์ž…๋˜๊ธฐ ์‹œ์ž‘ํ•˜๋ฉด์„œ ์ •ํ•ด์ง„ ๋ฐ์ดํ„ฐ๋กœ ๊ณ ์ •๋œ ๋ชจ๋ธ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ง€์†์ ์œผ๋กœ ์ถ”๊ฐ€๋˜๋Š” ๋ฐ์ดํ„ฐ, ๋ฐ์ดํ„ฐ๋ฅผ ์œ„ํ•œ ๋ ˆ์ด๋ธ”๋ง์„ ํฌํ•จํ•œ ์ „์ฒ˜๋ฆฌ ๋“ฑ ์œ ๋™์ ์œผ๋กœ ๋ณ€ํ™”๋Š” ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ํ•ธ๋“ค๋ง ๋ฐ ํšจ์œจ์ ์ธ ํŒŒ์ดํ”„๋ผ์ธ ๊ตฌ์ถ•์˜ ํ•„์š”์„ฑ์ด ๋”์šฑ ๋†’์•„์กŒ์Šต๋‹ˆ๋‹ค. ์ด์™€ ํ•จ๊ป˜ ๋ฐ์ดํ„ฐ ์ค‘์‹ฌ์œผ๋กœ ์ธ๊ณต์ง€๋Šฅ์„ ๊ฐœ๋ฐœํ•˜๊ณ ์ž ํ•˜๋Š” Data-Centric AI๋ž€ ๊ฐœ๋…์ด ๋Œ€๋‘ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

ย  ์‹ค์ œ๋กœ ์ €๋ช…ํ•œ ์ธ๊ณต์ง€๋Šฅ ์ „๋ฌธ๊ฐ€๋“ค์ด Data-Centric AI์— ๊ณต๊ฐํ•˜๋ฉด์„œ ๋ชจ๋ธ์— ํŽธํ–ฅ๋œ ์—ฐ๊ตฌ๋ณด๋‹ค ์ฒด๊ณ„์ ์œผ๋กœ ์งˆ ์ข‹์€ ๋ฐ์ดํ„ฐ์…‹ ๊ตฌ์ถ•์„ ์œ„ํ•œ ์—ฐ๊ตฌ๊ฐ€ ํ•„์š”ํ•˜๋‹ค๊ณ  ๋งํ–ˆ์Šต๋‹ˆ๋‹ค. Tesla์—์„œ AI ๋””๋ ‰ํ„ฐ๋ฅผ ๋งก๊ณ  ์žˆ๋Š” ์•ˆ๋“œ๋ ˆ์ด ์นดํŒŒ์‹œ (Andrej Karpathy)๋Š” ํ…Œ์Šฌ๋ผ๊ฐ€ ์•ˆ์ „ํ•˜๊ณ  ๋†’์€ ์„ฑ๋Šฅ์˜ ์ž์œจ์ฃผํ–‰ ์ธ๊ณต์ง€๋Šฅ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ๋งŽ์€ ์–‘์˜ ๋ฐ์ดํ„ฐ๊ฐ€ ์š”๊ตฌ๋˜๊ณ  ์ด๋ฅผ ์œ„ํ•ด Tesla๋Š” ๋Š์ž„ ์—†์ด ์ˆ˜์ง‘๋˜๋Š” ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ๋ ˆ์ด๋ธ”๋ง ๋ฐ ํŒŒ์ดํ”„๋ผ์ธ์„ ๊ฐœ๋ฐœํ–ˆ๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค.

ํฌ๊ณ  (Large), ๊นจ๋—ํ•˜๊ณ  (Clean), ๋‹ค์–‘ํ•œ (Diverse) ๋ฐ์ดํ„ฐ์…‹์„ ๊ฑฐ๋Œ€ํ•œ ์‹ ๊ฒฝ๋ง์— ํ•™์Šต์‹œํ‚จ๋‹ค๋ฉด, ์„ฑ๊ณต์€ ๋‹ด๋ณด๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.
-์•ˆ๋“œ๋ ˆ์ด ์นดํŒŒ์‹œ (2021 CVPR)

ย  ๋˜ํ•œ ์ธ๊ณต์ง€๋Šฅ ์—…๊ณ„์—์„œ ์ข…์‚ฌํ•˜๋Š” ์ „๋ฌธ๊ฐ€๋“ค ์‚ฌ์ด์—์„œ๋„ '์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ๊ฐ€์žฅ ํฐ ์š”์ธ์€ ๋ฐ์ดํ„ฐ.'๋ผ๋Š” ๊ณต๊ฐ๋Œ€๊ฐ€ ํ˜•์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ง€๋‚œ 2021๋…„ 3์›”์— ๊ธฐ์—…๋“ค์˜ ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ ๋„์ž…์„ ๋•๋Š” Landing AI์˜ ์ˆ˜์žฅ์ด๋ฉฐ ์œ ๋ช…๊ต์ˆ˜์ธ Andrew Ng์ด ๊ฐœ์ตœํ•œ ์›จ๋น„๋‚˜์—์„œ, '70% ์„ฑ๋Šฅ ๋ชจ๋ธ์„ 90% ์„ฑ๋Šฅ์˜ ๋ชจ๋ธ๋กœ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด์„œ ๋ฐ์ดํ„ฐ, ๋ชจ๋ธ ์–ด๋–ค ๊ฒƒ์ด ์ค‘์š”ํ•œ๊ฐ€?'์— ๋Œ€ํ•œ ๋ฌผ์Œ์— 80%์˜ ์‚ฌ๋žŒ๋“ค์ด ๋ฐ์ดํ„ฐ์— ํ•œํ‘œ๋ฅผ ๋˜์กŒ์Šต๋‹ˆ๋‹ค.

๋Œ€์ฒด ์‹ค์ฒœ์€ ์–ด๋–ป๊ฒŒ?

ย  Data์™€ Data-Centric AI์˜ ์ค‘์š”์„ฑ์€ ๋‘ ๋ฒˆ ๋งํ•  ํ•„์š”๊ฐ€ ์—†์ง€๋งŒ ์ด์— ๋Œ€ํ•œ ์ผ๋ฐ˜ํ™”๋˜๊ณ  ์‹œ์Šคํ…œ์  ์†”๋ฃจ์…˜์„ ์ œ์‹œํ•˜๋Š” ๊ฒƒ์€ ๋ฌด์ฒ™ ์–ด๋ ค์šด ์ผ์ž…๋‹ˆ๋‹ค. ์‹ค์ œ๋กœ ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ ๊ฐœ๋ฐœ์—๋Š” ๋ชจ๋ธ์˜ ๋ชฉํ‘œ, ํƒ€๊ฒŸ ์„ฑ๋Šฅ ๋“ฑ ์—ฌ๋Ÿฌ ๋ณ€์ˆ˜๊ฐ€ ์ž‘์šฉํ•˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ ๊ฐœ๋ฐœ๊ณผ ์—ฎ์—ฌ์ง€๊ธด ํ•˜์ง€๋งŒ ๋ฐ์ดํ„ฐ์˜ ์ถœ์ƒ๊ณผ ์„ฑ์žฅ ๊ทธ๋ฆฌ๊ณ  ๊ด€๋ฆฌ๋Š” ์ˆ˜์ง‘-๊ฐ€๊ณต-๋žญ๊ธ€๋ง-๋ฒ„์ ธ๋‹-๊ด€๋ฆฌ๋กœ ๋‹ค์„ฏ ๋‹จ๊ณ„๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‹ค์ œ๋กœ Superb AI์—์„œ ์„ค๋ฌธ์กฐ์‚ฌํ•œ ๋ฐ”์— ๋”ฐ๋ฅด๋ฉด,

๋ฐ์ดํ„ฐ ๊ฐ€๊ณต๊ณผ ๊ด€๋ฆฌ, ์ˆ˜์ง‘ ์ˆœ์œผ๋กœ ์ž‘์—…์˜ ์–ด๋ ค์›€์„ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ €๋Š” ์—ฌ๊ธฐ์„œ '๋ฐ์ดํ„ฐ ๊ฐ€๊ณต'์— ๋Œ€ํ•œ ์‹œ์Šคํ…œ์  ์ ‘๊ทผ๊ณผ ๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ ์ฐจ์›์—์„œ์˜ ๊ณ ๋ ค์ ์— ๋Œ€ํ•ด์„œ ์„œ์ˆ ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.

๊ฐ€๊ณต์˜ ์‹œ์Šคํ…œ์  ์ ‘๊ทผ์˜ ์˜ˆ์‹œ

๋…ธ๋™์ตœ์†Œํ™” Instance-level ๋ ˆ์ด๋ธ”๋ง

ย  Segmentation mask๋Š” ์ด๋ฏธ์ง€์— ๋Œ€ํ•œ ํ’๋ถ€ํ•œ ์ •๋ณด๊ฐ€ ๋˜์ง€๋งŒ ๋งค๋‰ด์–ผ ๋ ˆ์ด๋ธ”๋งํ•˜๊ธฐ์—๋Š” ๋น„์‹ผ ๋ ˆ์ด๋ธ”์ž…๋‹ˆ๋‹ค. ์ œ๊ฐ€ ์—ฐ๊ตฌํ•˜๊ณ  ์žˆ๋Š” Interactive segmentation ์—ฐ๊ตฌ๋Š” ์œ ์ €์˜ ๋ช‡ ๋ฒˆ์˜ Interaction์œผ๋กœ Segmentation mask๋ฅผ ์–ป๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์œ„์˜ ๊ทธ๋ฆผ์€ Interactive segmentation ๋ชจ๋ธ์„ ํ†ตํ•ด์„œ ์ถ”๋ก ํ•œ ๊ฒฐ๊ณผ์ธ๋ฐ ๋นจ๊ฐ„์ ์ด ๋ฌผ์ฒด๊ฐ€ ์žˆ๋Š” ๋ถ€๋ถ„์„ ๊ฐ€๋ฅดํ‚ค๋Š” Positive ํด๋ฆญ, ํŒŒ๋ž€์ ์ด ๋ฌผ์ฒด๊ฐ€ ์—†๋Š” ๋ถ€๋ถ„์„ ๊ฐ€๋ฅดํ‚ค๋Š” Negative ํด๋ฆญ์ž…๋‹ˆ๋‹ค. ๋ณด์‹œ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์ด ๋ช‡ ๋ฒˆ์˜ ํด๋ฆญ๋งŒ์œผ๋กœ ๋†’์€ ์„ฑ๋Šฅ์˜ Segmentation mask๋ฅผ ํš๋“ํ•  ์ˆ˜ ์žˆ์Œ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Auto-Labelling-๋ ˆ์ด๋ธ” ์ปจํŽŒ

ย  ํ•˜์ง€๋งŒ Interactive segmentation๊ณผ ์ž‘๊ฒŒ๋‚˜๋งˆ ๊ฐ™์ด ์‚ฌ๋žŒ์˜ ๋…ธ๋™์ด ํˆฌ์ž…๋˜๋Š” ๋ฐฉ๋ฒ•๋ก ์€ ๊ทผ๋ณธ์ ์œผ๋กœ ๋Œ€์šฉ๋Ÿ‰ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์— ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง‘๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋น„๊ต์  ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์˜ ์ธ๊ณต์ง€๋Šฅ์„ ๊ฐœ๋ฐœํ•œ ์ดํ›„์—๋Š” ๋ชจ๋ธ ์ถ”๋ก  ๊ฒฐ๊ณผ๋ฅผ ์–ป์–ด์ง„ ๋ ˆ์ด๋ธ”์œผ๋กœ ์—ฌ๊ธฐ๊ณ  (Auto-Labelling) ์ด๋ฅผ ์ˆ˜์ •ํ•˜๊ฑฐ๋‚˜ ์ปจํŽŒํ•˜๋Š” ์ž‘์—…์„ ํ•˜์—ฌ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ•์˜ ํšจ์œจ์„ฑ์„ ๋”ํ•˜๋Š” ๋ฐฉ์‹์„ ์ถ”๊ตฌํ•ด์•ผ ํ•  ๊ฒƒ ์ž…๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ๊ด€๋ฆฌ๋ฅผ ์œ„ํ•œ ๊ณ ๋ ค์ 

ย  Superb AI์˜ ์ด Whitepaper๋ฅผ ํ†ตํ•ด ๊ณ ์„ฑ๋Šฅ ์ธ๊ณต์ง€๋Šฅ์„ ํ•™์Šตํ•˜๊ธฐ ์œ„ํ•ด์„œ ML ๋ฐ์ดํ„ฐ์…‹์ด ์–ด๋–ป๊ฒŒ ํ™•๋ณด๋˜์–ด์•ผ ํ•˜๋Š”์ง€ ๊ฐœ๋…์ ์œผ๋กœ ์ œ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค.

์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ๋ผ๋ฒจ(Y) ์ฐจ์›์—์„œ๋Š” ๋ผ๋ฒจ ์งˆ๊ณผ ์ผ๊ด€์„ฑ์„ ์œ„ํ•ด์„œ ํž˜์“ฐ๊ณ  ๋กœ์šฐ-๋ฐ์ดํ„ฐ(X)์ฐจ์›์—์„œ๋Š” ๊ผผ๊ผผํžˆ ๋ฉ”ํƒ€์ •๋ณด๋ฅผ ํ™•๋ณด์™€ ์‹ค์ƒํ™ฉ์—์„œ ๋งˆ์ฃผํ•  ์ˆ˜ ์žˆ๋Š” Edge case์— ๋Œ€ํ•œ ๋ถ„์„ ๋ฐ ํ™•๋ณด๋ฅผ ์ง€์†์ ์œผ๋กœ ํ•ด๋‚˜๊ฐ€์•ผ ํ•ฉ๋‹ˆ๋‹ค.

profile
Ph.D. Student @ KAIST / Co-Founder @ Letsur

0๊ฐœ์˜ ๋Œ“๊ธ€