ย Superb AI์ Whitepaper: "ํ๊ตญ์ ๊ธฐ์ ๋ค์ Data-Centric AI์ ์ผ๋ง๋ ์ค๋น๋์ด ์์๊น?"๋ฅผ ์ฝ๊ณ ์ฐธ๊ณ ํ์ฌ ์์ฑ๋์์ต๋๋ค. Data-Centric AI์ ๋ํ ๊ฐ๋ ๊ณผ ๋ฐ์ดํฐ์ ๋ํด์ ์์คํ ์ ์ผ๋ก ์ ๊ทผํ๊ธฐ ์ํ ๊ณ ๋ ค์ฌํญ๋ค์ ํฌํจํ๊ณ ์์ต๋๋ค.
ย ์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ๋ฅผ ์งํํ๋ฉด์ ๋ฐ์ดํฐ์ ์ค์์ฑ์ ๋๋ผ์ง ๋ชปํ ์ฌ๋์ ์์ ๊ฒ ์ ๋๋ค. ํ์ง๋ง ์ค์๋์ ๋นํด ๋๋ค์์ ๋ ผ๋ฌธ๋ค์์๋ ์๊ณ ๋ฆฌ์ฆ ๊ฐ๋ฐ์ ์ง์ค๋์ด ์๋ ๊ฒ์ด ์ฌ์ค์ ๋๋ค (Model-Centric AI). ์ต๊ทผ์ ๋ฅ๋ฌ๋ ๋ชจ๋ธ๋ค์ด ์ฐ์ ๊ณ์ ๋์ ๋๊ธฐ ์์ํ๋ฉด์ ์ ํด์ง ๋ฐ์ดํฐ๋ก ๊ณ ์ ๋ ๋ชจ๋ธ์ ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ ์ง์์ ์ผ๋ก ์ถ๊ฐ๋๋ ๋ฐ์ดํฐ, ๋ฐ์ดํฐ๋ฅผ ์ํ ๋ ์ด๋ธ๋ง์ ํฌํจํ ์ ์ฒ๋ฆฌ ๋ฑ ์ ๋์ ์ผ๋ก ๋ณํ๋ ๋ฐ์ดํฐ์ ๋ํ ํธ๋ค๋ง ๋ฐ ํจ์จ์ ์ธ ํ์ดํ๋ผ์ธ ๊ตฌ์ถ์ ํ์์ฑ์ด ๋์ฑ ๋์์ก์ต๋๋ค. ์ด์ ํจ๊ป ๋ฐ์ดํฐ ์ค์ฌ์ผ๋ก ์ธ๊ณต์ง๋ฅ์ ๊ฐ๋ฐํ๊ณ ์ ํ๋ Data-Centric AI๋ ๊ฐ๋ ์ด ๋๋ ๋์์ต๋๋ค.
ย ์ค์ ๋ก ์ ๋ช ํ ์ธ๊ณต์ง๋ฅ ์ ๋ฌธ๊ฐ๋ค์ด Data-Centric AI์ ๊ณต๊ฐํ๋ฉด์ ๋ชจ๋ธ์ ํธํฅ๋ ์ฐ๊ตฌ๋ณด๋ค ์ฒด๊ณ์ ์ผ๋ก ์ง ์ข์ ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ ์ํ ์ฐ๊ตฌ๊ฐ ํ์ํ๋ค๊ณ ๋งํ์ต๋๋ค. Tesla์์ AI ๋๋ ํฐ๋ฅผ ๋งก๊ณ ์๋ ์๋๋ ์ด ์นดํ์ (Andrej Karpathy)๋ ํ ์ฌ๋ผ๊ฐ ์์ ํ๊ณ ๋์ ์ฑ๋ฅ์ ์์จ์ฃผํ ์ธ๊ณต์ง๋ฅ์ ๋ง๋ค๊ธฐ ์ํด ๋ง์ ์์ ๋ฐ์ดํฐ๊ฐ ์๊ตฌ๋๊ณ ์ด๋ฅผ ์ํด Tesla๋ ๋์ ์์ด ์์ง๋๋ ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ๋ ์ด๋ธ๋ง ๋ฐ ํ์ดํ๋ผ์ธ์ ๊ฐ๋ฐํ๋ค๊ณ ๋ฐํ์ต๋๋ค.
ํฌ๊ณ (Large), ๊นจ๋ํ๊ณ (Clean), ๋ค์ํ (Diverse) ๋ฐ์ดํฐ์ ์ ๊ฑฐ๋ํ ์ ๊ฒฝ๋ง์ ํ์ต์ํจ๋ค๋ฉด, ์ฑ๊ณต์ ๋ด๋ณด๋์ด ์์ต๋๋ค.
-์๋๋ ์ด ์นดํ์ (2021 CVPR)
ย ๋ํ ์ธ๊ณต์ง๋ฅ ์ ๊ณ์์ ์ข ์ฌํ๋ ์ ๋ฌธ๊ฐ๋ค ์ฌ์ด์์๋ '์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ๊ฐ์ฅ ํฐ ์์ธ์ ๋ฐ์ดํฐ.'๋ผ๋ ๊ณต๊ฐ๋๊ฐ ํ์ฑ๋์ด ์์ต๋๋ค. ์ค์ ๋ก ์ง๋ 2021๋ 3์์ ๊ธฐ์ ๋ค์ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ ๋์ ์ ๋๋ Landing AI์ ์์ฅ์ด๋ฉฐ ์ ๋ช ๊ต์์ธ Andrew Ng์ด ๊ฐ์ตํ ์จ๋น๋์์, '70% ์ฑ๋ฅ ๋ชจ๋ธ์ 90% ์ฑ๋ฅ์ ๋ชจ๋ธ๋ก ๊ฐ์ ํ๊ธฐ ์ํด์ ๋ฐ์ดํฐ, ๋ชจ๋ธ ์ด๋ค ๊ฒ์ด ์ค์ํ๊ฐ?'์ ๋ํ ๋ฌผ์์ 80%์ ์ฌ๋๋ค์ด ๋ฐ์ดํฐ์ ํํ๋ฅผ ๋์ก์ต๋๋ค.
ย Data์ Data-Centric AI์ ์ค์์ฑ์ ๋ ๋ฒ ๋งํ ํ์๊ฐ ์์ง๋ง ์ด์ ๋ํ ์ผ๋ฐํ๋๊ณ ์์คํ ์ ์๋ฃจ์ ์ ์ ์ํ๋ ๊ฒ์ ๋ฌด์ฒ ์ด๋ ค์ด ์ผ์ ๋๋ค. ์ค์ ๋ก ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ ๊ฐ๋ฐ์๋ ๋ชจ๋ธ์ ๋ชฉํ, ํ๊ฒ ์ฑ๋ฅ ๋ฑ ์ฌ๋ฌ ๋ณ์๊ฐ ์์ฉํ๊ธฐ ๋๋ฌธ์ ๋๋ค. ๋ชจ๋ธ ๊ฐ๋ฐ๊ณผ ์ฎ์ฌ์ง๊ธด ํ์ง๋ง ๋ฐ์ดํฐ์ ์ถ์๊ณผ ์ฑ์ฅ ๊ทธ๋ฆฌ๊ณ ๊ด๋ฆฌ๋ ์์ง-๊ฐ๊ณต-๋ญ๊ธ๋ง-๋ฒ์ ธ๋-๊ด๋ฆฌ๋ก ๋ค์ฏ ๋จ๊ณ๋ก ๋๋ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ก Superb AI์์ ์ค๋ฌธ์กฐ์ฌํ ๋ฐ์ ๋ฐ๋ฅด๋ฉด,
๋ฐ์ดํฐ ๊ฐ๊ณต๊ณผ ๊ด๋ฆฌ, ์์ง ์์ผ๋ก ์์ ์ ์ด๋ ค์์ ํ๊ฐํ์ต๋๋ค. ์ ๋ ์ฌ๊ธฐ์ '๋ฐ์ดํฐ ๊ฐ๊ณต'์ ๋ํ ์์คํ ์ ์ ๊ทผ๊ณผ ๋ฐ์ดํฐ ๊ด๋ฆฌ ์ฐจ์์์์ ๊ณ ๋ ค์ ์ ๋ํด์ ์์ ํ๊ฒ ์ต๋๋ค.
ย Segmentation mask๋ ์ด๋ฏธ์ง์ ๋ํ ํ๋ถํ ์ ๋ณด๊ฐ ๋์ง๋ง ๋งค๋ด์ผ ๋ ์ด๋ธ๋งํ๊ธฐ์๋ ๋น์ผ ๋ ์ด๋ธ์ ๋๋ค. ์ ๊ฐ ์ฐ๊ตฌํ๊ณ ์๋ Interactive segmentation ์ฐ๊ตฌ๋ ์ ์ ์ ๋ช ๋ฒ์ Interaction์ผ๋ก Segmentation mask๋ฅผ ์ป๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์์ต๋๋ค.
์์ ๊ทธ๋ฆผ์ Interactive segmentation ๋ชจ๋ธ์ ํตํด์ ์ถ๋ก ํ ๊ฒฐ๊ณผ์ธ๋ฐ ๋นจ๊ฐ์ ์ด ๋ฌผ์ฒด๊ฐ ์๋ ๋ถ๋ถ์ ๊ฐ๋ฅดํค๋ Positive ํด๋ฆญ, ํ๋์ ์ด ๋ฌผ์ฒด๊ฐ ์๋ ๋ถ๋ถ์ ๊ฐ๋ฅดํค๋ Negative ํด๋ฆญ์ ๋๋ค. ๋ณด์๋ ๊ฒ๊ณผ ๊ฐ์ด ๋ช ๋ฒ์ ํด๋ฆญ๋ง์ผ๋ก ๋์ ์ฑ๋ฅ์ Segmentation mask๋ฅผ ํ๋ํ ์ ์์์ ์ ์ ์์ต๋๋ค.
ย ํ์ง๋ง Interactive segmentation๊ณผ ์๊ฒ๋๋ง ๊ฐ์ด ์ฌ๋์ ๋ ธ๋์ด ํฌ์ ๋๋ ๋ฐฉ๋ฒ๋ก ์ ๊ทผ๋ณธ์ ์ผ๋ก ๋์ฉ๋ ๋ฐ์ดํฐ ๊ตฌ์ถ์ ํ๊ณ๋ฅผ ๊ฐ์ง๋๋ค. ๋ฐ๋ผ์ ๋น๊ต์ ์ฐ์ํ ์ฑ๋ฅ์ ์ธ๊ณต์ง๋ฅ์ ๊ฐ๋ฐํ ์ดํ์๋ ๋ชจ๋ธ ์ถ๋ก ๊ฒฐ๊ณผ๋ฅผ ์ป์ด์ง ๋ ์ด๋ธ์ผ๋ก ์ฌ๊ธฐ๊ณ (Auto-Labelling) ์ด๋ฅผ ์์ ํ๊ฑฐ๋ ์ปจํํ๋ ์์ ์ ํ์ฌ ๋ฐ์ดํฐ ๊ตฌ์ถ์ ํจ์จ์ฑ์ ๋ํ๋ ๋ฐฉ์์ ์ถ๊ตฌํด์ผ ํ ๊ฒ ์ ๋๋ค.
ย Superb AI์ ์ด Whitepaper๋ฅผ ํตํด ๊ณ ์ฑ๋ฅ ์ธ๊ณต์ง๋ฅ์ ํ์ตํ๊ธฐ ์ํด์ ML ๋ฐ์ดํฐ์ ์ด ์ด๋ป๊ฒ ํ๋ณด๋์ด์ผ ํ๋์ง ๊ฐ๋ ์ ์ผ๋ก ์ ์ํ์ต๋๋ค.
์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๋ผ๋ฒจ(Y) ์ฐจ์์์๋ ๋ผ๋ฒจ ์ง๊ณผ ์ผ๊ด์ฑ์ ์ํด์ ํ์ฐ๊ณ ๋ก์ฐ-๋ฐ์ดํฐ(X)์ฐจ์์์๋ ๊ผผ๊ผผํ ๋ฉํ์ ๋ณด๋ฅผ ํ๋ณด์ ์ค์ํฉ์์ ๋ง์ฃผํ ์ ์๋ Edge case์ ๋ํ ๋ถ์ ๋ฐ ํ๋ณด๋ฅผ ์ง์์ ์ผ๋ก ํด๋๊ฐ์ผ ํฉ๋๋ค.