2025๋ 11์ฃผ์ฐจ์ ๊ณต๊ฐ๋ ์ฃผ๋ชฉํ ๋งํ AI ๋ถ์ผ์ ๋ ผ๋ฌธ๋ค์ ์๊ฐํฉ๋๋ค.
์ธ์ด ๋ชจ๋ธ ๋ฐ ํ ์คํธ ์ฒ๋ฆฌ ๋ถ์ผ์์๋ Sparse Autoencoder๋ฅผ ํตํด ์ธ๊ณต ์์ฑ ํ ์คํธ ํ์ง(ATD)์ ํด์ ๊ฐ๋ฅ์ฑ์ ๋์ด๊ณ ์ธ๊ฐ๊ณผ LLM ๊ฐ์ ๊ธ์ฐ๊ธฐ ์คํ์ผ ์ฐจ์ด๋ฅผ ๊ท๋ช ํ์ต๋๋ค. EuroBERT๋ ์ต์ ์์ฑ(decoder-only) ๋ชจ๋ธ์ ๋ฐ์ ์ ์๋ฐฉํฅ ์ธ์ฝ๋์ ์ ์ฉํ์ฌ ์ ๋ฝ ๋ฐ ๊ธ๋ก๋ฒ ์ธ์ด๋ฅผ ์ํ ๋ค๊ตญ์ด ์ธ์ฝ๋ ์ฑ๋ฅ์ ๊ฐ์ ํ์ต๋๋ค. SEAP๋ ํ์ต ์์ด LLM์ task-specificํ ์ ๋ฌธ๊ฐ(expert)๋ฅผ ์ ํ์ ์ผ๋ก pruningํ์ฌ ๊ณ์ฐ ํจ์จ์ฑ์ ๋์ด๊ณ ์ฑ๋ฅ ์ ํ๋ฅผ ์ต์ํํ์ต๋๋ค.
๋ฉํฐ๋ชจ๋ฌ ์ดํด ๋ฐ ์ถ๋ก ๋ถ์ผ์์๋ UnifiedReward๋ ์ด๋ฏธ์ง ๋ฐ ๋น๋์ค ์ดํดยท์์ฑ์ ๋์์ ํ๊ฐํ๋ ์ต์ด์ ํตํฉ ๋ณด์ ๋ชจ๋ธ๋ก, ๊ณต๋ ํ์ต ์ ์ํธ ์ฑ๋ฅ ํฅ์ ํจ๊ณผ๋ฅผ ๋ณด์์ต๋๋ค. LMM-R1์ ์ํ(3B) ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ์์ ๋ ๋จ๊ณ ๊ท์น ๊ธฐ๋ฐ RL์ ํตํด ์ถ๋ก ๋ฅ๋ ฅ์ ํฌ๊ฒ ๊ฐ์ ํ์ต๋๋ค. 4D LangSplat์ ๋ฉํฐ๋ชจ๋ฌ LLM์ ํตํด ๋์ ์ฅ๋ฉด์์ ๊ฐ๋ฐฉํ ์ธ์ด ์ง์๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ์๋ก์ด 4D ์คํ๋ํ ๋ฐฉ์์ ์ ์ํ์ต๋๋ค.
3D ์ฌ๊ตฌ์ฑ ๋ฐ ๋์ ์์ฑ ๋ถ์ผ์์๋ PE3R์ ๊ธฐ์กด ๋ฐฉ์ ๋๋น ์ต์ 9๋ฐฐ ๋น ๋ฅธ ์๋์ ๋์ ์ ํ์ฑ์ผ๋ก 2Dโ3D ์ฌ๊ตฌ์ฑ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ํฌ๊ฒ ๊ฐ์ ํ์ต๋๋ค. Motion Anything์ ํ ์คํธ ๋ฐ ์์ ๋ฑ ๋ฉํฐ๋ชจ๋ฌ ์กฐ๊ฑด์ ํจ๊ณผ์ ์ผ๋ก ํตํฉํ์ฌ ์ ๋ฐํ ์กฐ๊ฑด๋ถ ๋์ ์์ฑ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.
์ ๋ฌธ ๋ถ์ผ ๋ฐ ๋ฌธํ ํนํ ๋ฐ์ดํฐ์ ๊ตฌ์ถ ๋ถ์ผ์์๋ RuCCoD๋ ๋ฌ์์์ด๋ก ๊ตฌ์ถ๋ ICD ์ฝ๋ ๋ฐ์ดํฐ์ ์ผ๋ก, ์๋ํ๋ฅผ ํตํด ์์ฌ์ ์๋ ๋ผ๋ฒจ๋ง ๋๋น ๋์ ์ ํ๋๋ฅผ ๋ฌ์ฑํ๋ฉฐ ๋ฌ์์์ด ์๋ฃ ๋ฐ์ดํฐ ์๋ํ ๊ฐ๋ฅ์ฑ์ ์ ์ฆํ์ต๋๋ค. SEA-VL์ ๋๋จ์์์์ ๋ฌธํ์ ํน์ฑ์ ๋ฐ์ํ ์ด๋ฏธ์ง ์ฝ 128๋ง ์ฅ ๊ท๋ชจ์ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ฌ ์ง์ญ ๋ฌธํ์ ๋ํ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ AI ๋ค์์ฑ์ ๊ฐํํ์ต๋๋ค.

๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๋ฐ์ ์ผ๋ก ์ธํด ์ธ๊ณต ์์ฑ ํ ์คํธ ํ์ง(Artificial Text Detection, ATD)์ ์ค์์ฑ์ด ๋์์ง๊ณ ์์ง๋ง, ๋ค์ํ ์ ํ์ ๋ฏธํ์ธ ํ ์คํธ์ ์ผ๊ด๋๊ฒ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ด๊ฑฐ๋ ์๋ก์ด LLM์ ํจ๊ณผ์ ์ผ๋ก ์ผ๋ฐํ๋๋ ์๊ณ ๋ฆฌ์ฆ์ ์์ง ์กด์ฌํ์ง ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ์ฐ๊ตฌ๋ Sparse Autoencoders(SAE)๋ฅผ ์ฌ์ฉํ์ฌ Gemma-2-2b์ residual stream์์ ํน์ง(feature)์ ์ถ์ถํจ์ผ๋ก์จ ATD์ ํด์ ๊ฐ๋ฅ์ฑ(interpretability)์ ํฅ์์์ผฐ์ต๋๋ค. ์ถ์ถ๋ ํน์ง์ ์๋ฏธ๋ก ๊ณผ ์ฐ๊ด์ฑ์ ๋๋ฉ์ธ ๋ฐ ๋ชจ๋ธ๋ณ ํต๊ณ ๋ถ์, ์คํฐ์ด๋ง(steering) ๊ธฐ๋ฒ, ์๋ ๋๋ LLM ๊ธฐ๋ฐ ํด์์ ํตํด ๋ถ์ํ์์ต๋๋ค. ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ต์ LLM์ ์ธ๊ฐ๊ณผ ์ ์ฌํ ์ถ๋ ฅ์ ์์ฑํ ์ ์์์๋ ๋ถ๊ตฌํ๊ณ , ํนํ ์ ๋ณด ๋ฐ๋๊ฐ ๋์ ๋๋ฉ์ธ์์๋ ๊ณ ์ ํ ๊ธ์ฐ๊ธฐ ์คํ์ผ์ด ์์์ ํ์ธํ์ต๋๋ค.

์ต๊ทผ ์์ฑ(decoder-only) ๋ชจ๋ธ์ ๋ฐ์ ์ผ๋ก ์ธํด ๋ฒ์ฉ ๋ค๊ตญ์ด ๋ฒกํฐ ํํ์ ์ป๋ ๋ฐ ์ฌ์ฉ๋์๋ ๊ธฐ์กด์ ์๋ฐฉํฅ ์ธ์ฝ๋ ๋ชจ๋ธ์ด ์ฃผ๋ชฉ๋ฐ์ง ๋ชปํ๊ณ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ ์ต๊ทผ ์์ฑ ๋ชจ๋ธ ๋ฐ์ ์ ํต์ฌ ํ์ ์ ๋ค๊ตญ์ด ์ธ์ฝ๋ ๊ฐ๋ฐ์ ์ ์ฉํ์ฌ ์ ๋ฝ ๋ฐ ์ ์ธ๊ณ์ ์ผ๋ก ๋๋ฆฌ ์ฌ์ฉ๋๋ ์ธ์ด๋ฅผ ์ง์ํ๋ EuroBERT ๋ชจ๋ธ๊ตฐ์ ์๊ฐํฉ๋๋ค. EuroBERT๋ ๋ค๊ตญ์ด ๋ฅ๋ ฅ, ์ํ ๋ฐ ์ฝ๋ฉ์ ํฌํจํ ๋ค์ํ ์์ ์์ ๊ธฐ์กด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ฐ์ด๋์ผ๋ฉฐ, ์ต๋ 8,192 ํ ํฐ์ ๊ธด ์ํ์ค๋ฅผ ๊ธฐ๋ณธ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ต๋๋ค. ๋ํ ๋ฐ์ดํฐ์ ๊ตฌ์ฑ ๋ฐ ํ๋ จ ํ์ดํ๋ผ์ธ ๋ฑ ์ค๊ณ ๊ฒฐ์ ๊ณผ์ ์ ์์ธํ ์ ์ํ๊ณ ์ค๊ฐ ํ์ต ์ฒดํฌํฌ์ธํธ๋ฅผ ํฌํจํ์ฌ ๋ชจ๋ธ๊ณผ ํ๋ จ ํ๋ ์์ํฌ๋ฅผ ๊ณต๊ฐํฉ๋๋ค.

๋๊ท๋ชจ ์ธ์ด๋ชจ๋ธ(LLM)์ ๋ค์ํ ์์ฐ์ด ์ฒ๋ฆฌ ์์ ์์ ๋ฐ์ด๋ ์ฑ๊ณผ๋ฅผ ๊ฑฐ๋์์ผ๋, ์ถ๋ก ์ ๋์ ๊ณ์ฐ ๋น์ฉ์ด ์ฃผ์ํ ์ฅ์ ๋ฌผ๋ก ๋จ์์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ์ถ๋ก ๊ณผ์ ์์ ์์ ๊ณผ ๊ด๋ จ๋ ํ๋ผ๋ฏธํฐ๋ง ์ ํ์ ์ผ๋ก ์ ์งํ์ฌ ์ถ๋ก ๋น์ฉ์ ์ค์ด๋, ํ์ต์ด ํ์ ์๋ ๊ฐ์ง์น๊ธฐ(pruning) ๊ธฐ๋ฒ์ธ Sparse Expert Activation Pruning(SEAP)์ ์๊ฐํฉ๋๋ค. SEAP์ LLM์ hidden state์ ํ์ฑํ์์ ๋ํ๋๋ ํด๋ฌ์คํฐ๋ง ํจํด์ ์ฐฉ์ํ์ฌ, ์์ ์ ํนํ๋ ์ ๋ฌธ๊ฐ(expert) ํ์ฑํ ํจํด์ ์๋ณํ๊ณ ๋ชจ๋ธ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ ์ฐ์ฐ ํจ์จ์ฑ์ ํฅ์์ํต๋๋ค. ์คํ ๊ฒฐ๊ณผ, SEAP์ ๊ฒฝ์๋ ฅ ์๋ ์ ํ์ฑ์ ์ ์งํ๋ฉด์๋ ๊ณ์ฐ ์ค๋ฒํค๋๋ฅผ ํฌ๊ฒ ๊ฐ์์ํต๋๋ค. ํนํ, 50% pruning์์ ๊ธฐ์กด ๋ฐฉ๋ฒ์ธ WandA์ FLAP์ 20% ์ด์ ๋ฅ๊ฐํ์ผ๋ฉฐ, 20% pruning์์๋ ์๋ณธ ๋ฐ์ง ๋ชจ๋ธ(dense model)์ ๋นํด ์ฑ๋ฅ์ด ๋จ์ง 2.2%๋ง ์ ํ๋์์ต๋๋ค. ์ด๋ฌํ ๊ฒฐ๊ณผ๋ SEAP์ ํ์ฅ์ฑ๊ณผ ํจ์จ์ฑ์ ์ ์ฆํ๋ฉฐ, ๋๊ท๋ชจ LLM ์ต์ ํ์ ์ ๋งํ ์ ๊ทผ๋ฒ์์ ์์ฌํฉ๋๋ค.

์ต๊ทผ ์ฌ๋์ ์ ํธ๋ ์ ๋ ฌ(Human Preference Alignment)์ ๋ฐ์ ์ ๋ฉํฐ๋ชจ๋ฌ ์์ฑ ๋ฐ ์ดํด ๋ฅ๋ ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ๋ํ์ ์ธ ์ ๊ทผ๋ฒ์ ๋ณด์ ๋ชจ๋ธ์ ํ์ตํ์ฌ ์ ํธ๋๋ฅผ ์ต์ ํํ๋ ๊ฒ์ด์ง๋ง, ๊ธฐ์กด ๋ชจ๋ธ์ ์์ ๋ณ๋ก ํนํ๋์ด ๋ค์ํ ์๊ฐ์ ์์ฉ ํ๋ก๊ทธ๋จ์์์ ์ ์์ฑ์ด ์ ํ๋์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ค์ํ ์์ ์ ๊ณต๋์ผ๋ก ํ๊ฐํ ๋ ์ด๋ฏธ์ง ์ดํด๊ฐ ์ด๋ฏธ์ง ์์ฑ ํ๊ฐ๋ฅผ ํฅ์์ํค๊ณ , ๊ฐ์ ๋ ์ด๋ฏธ์ง ํ๊ฐ๊ฐ ๋น๋์ค ํ๊ฐ์๋ ๋์์ด ๋๋ ๋ฑ ์ํธ ๊ฐ ์๋์ง ํจ๊ณผ๋ฅผ ์ด์งํ ์ ์๋ค๊ณ ์ฃผ์ฅํฉ๋๋ค. ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ด๋ฏธ์ง์ ๋น๋์ค์ ์์ฑ ๋ฐ ์ดํด ์์ ์ ๋ชจ๋ ํฌํจํ๋ ๋๊ท๋ชจ ์ธ๊ฐ ์ ํธ๋ ๋ฐ์ดํฐ์ ์์ ํ๋ จํ ์ต์ด์ ํตํฉ ๋ณด์ ๋ชจ๋ธ์ธ UnifiedReward๋ฅผ ์ ์ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ pairwise ranking ๋ฐ pointwise scoring ๋ฐฉ์์ ๋ชจ๋ ์ง์ํ์ฌ ๋น์ ๋ชจ๋ธ์ ์ ํธ๋ ์ ๋ ฌ(preference alignment)์ ํ์ฉํ ์ ์์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ๋ค์ํ ์๊ฐ์ ์์ ์ ํ๊ฐ๋ฅผ ๊ณต๋์ผ๋ก ํ์ตํ๋ ๊ฒ์ด ์๋ก์๊ฒ ์๋นํ ์ด์ ์ ์ ๊ณตํจ์ ์ ์ฆํ์์ต๋๋ค.

๋๊ท๋ชจ ๋ฉํฐ๋ชจ๋ฌ ๋ชจ๋ธ(LMM)์ ์ถ๋ก ๋ฅ๋ ฅ ๊ฐํ๋ ํนํ ์๊ท๋ชจ ๋ชจ๋ธ(3B)์์ ์๊ฐ ์ธ์ง์ ๋ ผ๋ฆฌ์ ์ถ๋ก ๊ฐ ๋ณต์กํ ์ํธ์์ฉ์ผ๋ก ์ธํด ๋ง์ ์ด๋ ค์์ ๊ฒช๊ณ ์์ต๋๋ค. ํ ์คํธ ๊ธฐ๋ฐ์์๋ rule-based ๊ฐํํ์ต(RL)์ด ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ง๋ง, ์ด๋ฅผ ๋ฉํฐ๋ชจ๋ฌ๋ก ํ์ฅํ ๋ ๋ฐ์ดํฐ ๋ถ์กฑ๊ณผ ๋ชจํธํ ์ ๋ต์ผ๋ก ์ธํ ํ๊ณ๊ฐ ์์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์ ๋ ๋จ๊ณ๋ก ๊ตฌ์ฑ๋ rule-based RL ํ๋ ์์ํฌ์ธ LMM-R1์ ์ ์ํฉ๋๋ค. ์ฒซ ๋ฒ์งธ ๋จ๊ณ์ธ Foundational Reasoning Enhancement(FRE)์์๋ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ rule-based RL๋ก ์ถ๋ก ๋ฅ๋ ฅ์ ๊ฐํํ๊ณ , ์ดํ ๋ ๋ฒ์งธ ๋จ๊ณ(Multimodal Generalization Training, MGT)์์๋ ๊ฐํ๋ ์ถ๋ก ๋ฅ๋ ฅ์ ๋ฉํฐ๋ชจ๋ฌ ์์ญ์ผ๋ก ์ผ๋ฐํํฉ๋๋ค. Qwen2.5-VL-Instruct-3B๋ฅผ ์ด์ฉํ ์คํ์์ ๋ฉํฐ๋ชจ๋ฌ ๋ฒค์น๋งํฌ์์ ํ๊ท 4.83%, ํ ์คํธ ๋ฒค์น๋งํฌ์์ 4.5%, ๋ณต์กํ Football Game ๊ณผ์ ์์ 3.63% ์ฑ๋ฅ ํฅ์์ ๋ณด์์ต๋๋ค.

์๊ฐ์ ๋ฏผ๊ฐํ๊ณ ๊ฐ๋ฐฉ์ ์ธ ์ธ์ด ์ง์(open-ended language queries)๋ฅผ ์ฒ๋ฆฌํ๋ 4์ฐจ์(4D) ์ธ์ด ํ๋๋ฅผ ๋์ (dynamic) ์ฅ๋ฉด์์ ํ์ตํ๋ ๊ฒ์ ํ์ค ์์ฉ ๋ถ์ผ์์ ํ์์ ์ ๋๋ค. ๊ธฐ์กด์ LangSplat์ 3D ์ ์ ์ฅ๋ฉด์์ CLIP ํน์ง์ Gaussian ํํ์ผ๋ก groundingํ๋ ๋ฐ ์ฑ๊ณตํ์ง๋ง, CLIP์ ์ ์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ ์ ์ํด ์ค๊ณ๋์ด ์์ด ๋น๋์ค์ ์๊ฐ์ ์ญํ์ ํฌ์ฐฉํ์ง ๋ชปํฉ๋๋ค. ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์์๋ 4D LangSplat์ ์ ์ํฉ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ๋ฉํฐ๋ชจ๋ฌ ๋ํ ์ธ์ด๋ชจ๋ธ(MLLM)์ ํ์ฉํ multimodal object-wise video prompting ๋ฐฉ์์ ํตํด, ์๊ฐ ๋ฐ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋น๋์ค ๋ด ๊ฐ์ฒด์ ๋ํด ์๊ฐ์ ์ผ๋ก ์ผ๊ด๋๊ณ ๋์ ํ์ง์ ์์ธํ ์บก์ ์ ์์ฑํฉ๋๋ค. ์์ฑ๋ ์บก์ ์ LLM์ ์ด์ฉํด ๋ฌธ์ฅ ์๋ฒ ๋ฉ์ผ๋ก ๋ณํํ์ฌ ํฝ์ ๋จ์๋ก ๊ฐ์ฒด์ ๋ง์ถ ํน์ง(feature)์ supervision์ผ๋ก ํ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ๊ฐ๋ฐฉํ ์ธ์ด ์ง์(open-vocabulary queries)๋ฅผ ์ ๋ฐํ๊ฒ ์ฒ๋ฆฌํ ์ ์๊ฒ ๋์์ต๋๋ค.

์ต๊ทผ 2D์์ 3D๋ก์ ์ง๊ฐ(perception) ๊ธฐ์ ๋ฐ์ ์ผ๋ก 2D ์ด๋ฏธ์ง๋ก๋ถํฐ 3D ์ฅ๋ฉด์ ์ดํดํ๋ ๋ฅ๋ ฅ์ด ํฌ๊ฒ ํฅ์๋์์ง๋ง, ๊ธฐ์กด ๋ฐฉ๋ฒ์ ์ ํ๋ ์ฅ๋ฉด ์ผ๋ฐํ, ๋ถ์ถฉ๋ถํ ์ง๊ฐ ์ ํ๋, ๋๋ฆฐ ์ฌ๊ตฌ์ฑ ์๋๋ผ๋ ์ฌ๊ฐํ ๋ฌธ์ ๋ฅผ ๊ฒช๊ณ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ์ฐ๊ตฌ๋ ์ ํ์ฑ๊ณผ ํจ์จ์ฑ์ ๋ชจ๋ ๊ฐ์ ํ Perception-Efficient 3D Reconstruction(PE3R)์ ์ ์ํฉ๋๋ค. PE3R์ ํผ๋ํฌ์๋(feed-forward) ์ํคํ ์ฒ๋ฅผ ํ์ฉํ์ฌ ๋น ๋ฅธ 3D semantic field ์ฌ๊ตฌ์ฑ์ ๊ฐ๋ฅํ๊ฒ ํฉ๋๋ค. ๋ค์ํ ์ฅ๋ฉด๊ณผ ๊ฐ์ฒด์ ๋ํด ๋ฐ์ด๋ zero-shot ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์์ผ๋ฉฐ, ์คํ ๊ฒฐ๊ณผ 3D semantic field ์ฌ๊ตฌ์ฑ ์๋์์ ์ต์ 9๋ฐฐ์ ๊ฐ์ํ๋ฅผ ์ด๋ฃจ๋ฉด์๋ ์ง๊ฐ ์ ํ๋ ๋ฐ ์ฌ๊ตฌ์ฑ ์ ๋ฐ๋๋ฅผ ํฌ๊ฒ ๊ฐ์ ํ์์ต๋๋ค.

์กฐ๊ฑด๋ถ ๋์ ์์ฑ์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ํ๋ฐํ ์ฐ๊ตฌ๋์์ง๋ง, ๊ธฐ์กด masked autoregressive ๋ฐฉ์์ ์กฐ๊ฑด์ผ๋ก ์ฃผ์ด์ง ๋์ ํ๋ ์์ด๋ ์ ์ฒด ๋ถ์๋ฅผ ์ฐ์ ์ฒ๋ฆฌํ๋ ๋ฉ์ปค๋์ฆ์ด ๋ถ์กฑํ์ต๋๋ค. ๋ํ ๋ค์ํ ์กฐ๊ฑด(ํ ์คํธ, ์์ ๋ฑ)์ ํจ๊ณผ์ ์ผ๋ก ๊ฒฐํฉํ์ง ๋ชปํ๋ ๋ฌธ์ ๊ฐ ์กด์ฌํ์ต๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด Attention ๊ธฐ๋ฐ์ Mask Modeling ๋ฐฉ์์ ๋์ ํ Motion Anything์ ์ ์ํฉ๋๋ค. ์ด ๋ฐฉ๋ฒ์ ์ฃผ์ ํ๋ ์๊ณผ ๋์์ ์ธ๋ฐํ๊ฒ ์ ์ดํ ์ ์์ผ๋ฉฐ, ํ ์คํธ์ ์์ ๊ณผ ๊ฐ์ ๋ฉํฐ๋ชจ๋ฌ ์กฐ๊ฑด์ ์ ์์ ์ผ๋ก ์ธ์ฝ๋ฉํ์ฌ ๋์ ์์ฑ์ ์ ์ด ๊ฐ๋ฅ์ฑ์ ํฅ์ํ์ต๋๋ค. ๋ํ 2,153๊ฐ์ ํ ์คํธ-์์ -๋์ค๋ก ๊ตฌ์ฑ๋ ์๋ก์ด ๋์ ๋ฐ์ดํฐ์ (Text-Music-Dance, TMD)์ ๊ตฌ์ถํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ๊ธฐ์กด ์ต์ฒจ๋จ ๊ธฐ๋ฒ๋ณด๋ค HumanML3D ๋ฒค์น๋งํฌ์์ FID ์ ์ ๊ธฐ์ค 15%์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋กํ์ผ๋ฉฐ, AIST++์ TMD์์๋ ์ผ๊ด๋ ์ฑ๋ฅ ๊ฐ์ ์ ๋ฌ์ฑํ์ต๋๋ค.

๋ณธ ์ฐ๊ตฌ๋ ์์์ด ์ ํ๋ ๋ฌ์์์ด ํ๊ฒฝ์์ ์์ ์ฝ๋ฉ(ICD coding) ์๋ํ์ ๊ฐ๋ฅ์ฑ์ ํ๊ตฌํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ ์๊ฑด๊ฐ๊ธฐ๋ก(EHR)์ ์ง๋จ ํญ๋ชฉ์์ 10,000๊ฐ ์ด์์ ๊ฐ์ฒด(entity) ๋ฐ 1,500๊ฐ ์ด์์ ๊ณ ์ ICD ์ฝ๋๋ก ์ฃผ์ ์ฒ๋ฆฌ๋ ์๋ก์ด ICD ์ฝ๋ฉ ๋ฐ์ดํฐ์ ์ ๋ฌ์์์ด๋ก ๊ตฌ์ถํ์์ต๋๋ค. ๋ณธ ๋ฐ์ดํฐ์ ์ ์ด์ฉํ์ฌ BERT, LoRA๋ฅผ ์ ์ฉํ LLaMA, ๊ทธ๋ฆฌ๊ณ RAG์ ๊ฐ์ ์ต์ฒจ๋จ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ณ , ์ถ๊ฐ์ ์ผ๋ก ๋๋ฉ์ธ ๊ฐ(PubMed ์ด๋ก์์ ์๋ฃ ์ง๋จ ๋ฐ์ดํฐ๋ก) ๋ฐ ์ฉ์ด ๊ฐ(UMLS ๊ฐ๋ ์์ ICD ์ฝ๋๋ก์) ์ ์ดํ์ต์ ์คํํ์์ต๋๋ค. ์ดํ ์ต์ ์ฑ๋ฅ์ ๋ณด์ธ ๋ชจ๋ธ์ ํ์ฉํ์ฌ 2017๋ ์์ 2021๋ ๊น์ง์ ํ์ ๊ธฐ๋ก์ด ํฌํจ๋ ๋ณ์ ๋ด๋ถ EHR ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ๋ผ๋ฒจ๋งํ์์ต๋๋ค. ์ ์คํ๊ฒ ๊ตฌ์ถ๋ ํ ์คํธ์ ์์์ ์คํ ๊ฒฐ๊ณผ, ์๋์ผ๋ก ์์ธกํ ์ฝ๋๋ก ํ๋ จํ์ ๋ ์์ฌ๊ฐ ์๋์ผ๋ก ์ฃผ์์ ๋จ ๋ฐ์ดํฐ๋ก ํ๋ จํ์ ๋๋ณด๋ค ์ ํ๋๊ฐ ์๋นํ ๊ฐ์ ๋จ์ ์ ์ฆํ์ต๋๋ค. ์ด๋ฅผ ํตํด ๋ฌ์์์ด์ ๊ฐ์ด ์์์ด ์ ํ๋ ์ธ์ด์์๋ ์์ ์ฝ๋ฉ ์๋ํ๊ฐ ๊ฐ๋ฅํ๋ค๋ ํต์ฐฐ์ ์ ์ํ์ต๋๋ค.

๋๋จ์์์(SEA)๋ ์ธ์ด์ ยท๋ฌธํ์ ์ผ๋ก ๋งค์ฐ ๋ค์ํ์ง๋ง, ๋น์ -์ธ์ด(VL) ์ฐ๊ตฌ์์ ํฌ๊ฒ ์์ธ๋์ด ์์ต๋๋ค. ์ด๋ AI ๋ชจ๋ธ์ด ๋๋จ์์์ ๋ฌธํ์ ๋์์ค๋ฅผ ํฌ์ฐฉํ์ง ๋ชปํ๋ ๊ฒฐ๊ณผ๋ฅผ ์ด๋ํฉ๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ๋ ผ๋ฌธ์ ๋๋จ์์์ ์ธ์ด์ ๋ง์ถ ๊ณ ํ์ง์ ๋ฌธํ ๊ด๋ จ ๋ฐ์ดํฐ์ ๊ตฌ์ถ์ ๋ชฉํ๋ก ํ๋ ์คํ์์ค ์ด๋์ ํฐ๋ธ์ธ SEA-VL์ ์ ์ํฉ๋๋ค. SEA ๊ตญ๊ฐ์ ๊ธฐ์ฌ์๋ค์ด ์ฐธ์ฌํ์ฌ ๋ฌธํ์ ๊ด๋ จ์ฑ๊ณผ ๋ค์์ฑ์ ๋ณด์ฅํ์์ผ๋ฉฐ, ํฌ๋ผ์ฐ๋์์ฑ์ ๋์ด ์น ํฌ๋กค๋ง๊ณผ ์ด๋ฏธ์ง ์์ฑ ๋ฑ ์๋ํ๋ ์ด๋ฏธ์ง ์์ง ๋ฐฉ์์ ์ถ๊ฐ๋ก ํ์ํ์์ต๋๋ค. ์ฐ๊ตฌ ๊ฒฐ๊ณผ, ์ด๋ฏธ์ง ํฌ๋กค๋ง์ ํฌ๋ผ์ฐ๋์์ฑ ๋๋น ๋น์ฉ ๋ฐ ์๊ฐ ํจ์จ์ ์ด๋ฉด์ ์ฝ 85%์ ๋ฌธํ์ ์ ํฉ์ฑ์ ๋ฌ์ฑํ์ง๋ง, ์์ฑ๋ ์ด๋ฏธ์ง๋ ์ฌ์ ํ SEA ๋ฌธํ์ ๋ฏธ๋ฌํ ์ ํต๊ณผ ๋ฌธํ์ ๋งฅ๋ฝ์ ์ ํํ ๋ฐ์ํ์ง ๋ชปํ์ต๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก ์ด 128๋ง ๊ฐ์ SEA ๋ฌธํ ๊ด๋ จ ์ด๋ฏธ์ง๋ฅผ ์์งํ์ผ๋ฉฐ, ์ด๋ ๊ธฐ์กด ๋ฐ์ดํฐ์ ๋ณด๋ค 50๋ฐฐ ์ด์ ํฐ ๊ท๋ชจ์ ๋๋ค.