2025๋ 1์ฃผ์ฐจ์ ๊ณต๊ฐ๋ ์ฃผ๋ชฉํ ๋งํ AI ๋ถ์ผ์ ๋ ผ๋ฌธ๋ค์ ์๊ฐํฉ๋๋ค.
HuatuoGPT-o1์ ์๋ฃ ๋ถ์ผ์์์ ๋ณต์กํ ์ถ๋ก ๋ฅ๋ ฅ์ ํฅ์์ํค๊ธฐ ์ํด ๊ฐ๋ฐ๋ ์๋ก์ด ์ธ์ด ๋ชจ๋ธ์ ๋๋ค. ์ํ๊ณผ ๋ฌ๋ฆฌ ์๋ฃ ๋ถ์ผ์์๋ ์ถ๋ก ์ ์ ํ์ฑ์ ๊ฒ์ฆํ๊ธฐ๊ฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด, ์๋ฃ ๊ฒ์ฆ๊ธฐ(medical verifier)๋ฅผ ๋์ ํ์ฌ ๋ชจ๋ธ์ ์ถ๋ ฅ์ ๊ฒ์ฆํ ์ ์๋ ๋ฐฉ๋ฒ์ ์ ์ํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๋ ๋จ๊ณ๋ก ๊ฐ๋ฐ๋์๋๋ฐ, ๋จผ์ ๊ฒ์ฆ๊ธฐ๋ฅผ ํตํด ๋ณต์กํ ์ถ๋ก ๊ฒฝ๋ก๋ฅผ ์ฐพ์ ๋ชจ๋ธ์ ๋ฏธ์ธ์กฐ์ ํ๊ณ , ์ดํ ๊ฒ์ฆ๊ธฐ ๊ธฐ๋ฐ ๋ณด์์ ํ์ฉํ ๊ฐํํ์ต์ ์ ์ฉํ์ฌ ์ถ๋ก ๋ฅ๋ ฅ์ ๋์ฑ ํฅ์์์ผฐ์ต๋๋ค. ๋จ 4๋ง ๊ฐ์ ๊ฒ์ฆ ๊ฐ๋ฅํ ๋ฌธ์ ๋ง์ผ๋ก๋ ๊ธฐ์กด์ ์ผ๋ฐ ๋ฐ ์๋ฃ ํนํ ๋ชจ๋ธ๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.

์ด ์ฐ๊ตฌ๋ ๋ค์ค ๋ชจ๋ฌ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(MLLM)์ ์๋ฃ ๋ถ์ผ ํ์ฉ์์ ํฉ์ฑ์ ์ผ๋ฐํ(Compositional Generalization) ๋ฅ๋ ฅ์ ๋ถ์ํ์ต๋๋ค. ์๋ฃ ์ด๋ฏธ์ง๋ ์ดฌ์ ๋ฐฉ์(Modality), ํด๋ถํ์ ์์ญ(Anatomical area), ์์ (Task)์ผ๋ก ์ ํํ ์ ์๋ ์ ์๋ค๋ ์ ์ ์ฐฉ์ํ์ฌ, 106๊ฐ์ ์๋ฃ ๋ฐ์ดํฐ์ ์ผ๋ก ๊ตฌ์ฑ๋ Med-MAT๋ฅผ ๊ตฌ์ถํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, MLLM์ด ์ด๋ฏธ ํ์ตํ ์์๋ค์ ์ฌ์กฐํฉํ์ฌ ์ฒ์ ๋ณด๋ ์๋ฃ ์ด๋ฏธ์ง๋ ์ดํดํ ์ ์์์ ํ์ธํ์ผ๋ฉฐ, ์ด๋ฌํ ํฉ์ฑ์ ์ผ๋ฐํ๊ฐ ๋ค์ค ์์ ํ์ต์์ ๊ด์ฐฐ๋๋ ์ผ๋ฐํ์ ์ฃผ์ ๋์ธ์์ ๋ฐํ์ต๋๋ค. ํนํ ์ด ์ ๊ทผ๋ฐฉ์์ ์ ํ๋ ๋ฐ์ดํฐ์ ์์๋ ํจ๊ณผ์ ์ผ๋ก ์๋ํ๊ณ ๋ค์ํ ๋ชจ๋ธ ๊ตฌ์กฐ์์ ์ผ๊ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
VideoRefer Suite๋ ๋น๋์ค ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(Video LLM)์ด ๋น๋์ค ๋ด์ ์๊ณต๊ฐ์ ์ธ๋ถ ์ฌํญ์ ๋ ์ ํํ๊ฒ ์ดํดํ ์ ์๋๋ก ๊ฐ๋ฐ๋ ์ข ํฉ์ ์ธ ํ๋ ์์ํฌ์ ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์ธ ๊ฐ์ง ํต์ฌ ์์๋ก ๊ตฌ์ฑ๋ฉ๋๋ค: 1) ๋ค์ค ์์ด์ ํธ ๋ฐ์ดํฐ ์์ง์ ํตํด ๊ตฌ์ถํ 70๋ง ๊ฐ์ ๊ฐ์ฒด ์์ค ๋น๋์ค ์ง์ ๋ฐ์ดํฐ์ (VideoRefer-700K), 2) ์ ํํ ์ง์ญ์ , ์์ฐจ์ ํํ์ ํฌ์ฐฉํ ์ ์๋ ์๊ณต๊ฐ ๊ฐ์ฒด ์ธ์ฝ๋๋ฅผ ๊ฐ์ถ VideoRefer ๋ชจ๋ธ, 3) Video LLM์ ์๊ณต๊ฐ์ ์ดํด ๋ฅ๋ ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํ VideoRefer-Bench์ ๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์ด ๋ชจ๋ธ์ ๋น๋์ค ๋ด ๊ฐ์ฒด ์ฐธ์กฐ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ ๋ฟ๋ง ์๋๋ผ, ์ ๋ฐ์ ์ธ ๋น๋์ค ์ดํด ๋ฅ๋ ฅ๋ ํฅ์์์ผฐ์ต๋๋ค.

VideoAnydoor๋ ์ฃผ์ด์ง ๊ฐ์ฒด๋ฅผ ๋น๋์ค์ ์์ฐ์ค๋ฝ๊ฒ ์ฝ์ ํ ์ ์๋ ์๋ก์ด ํ๋ ์์ํฌ์ ๋๋ค. ๊ฐ์ฒด์ ์ธ๋ถ์ ์ธ ์ธ๊ด์ ์ ์งํ๋ฉด์ ๋์์ ์ผ๊ด๋ ์์ง์์ ๋ง๋ค์ด๋ด๋ ๊ฒ์ด ํต์ฌ์ธ๋ฐ, ์ด๋ฅผ ์ํด ID ์ถ์ถ๊ธฐ๋ก ์ ๋ฐ์ ์ธ ํน์ฑ์ ์ฃผ์ ํ๊ณ ๋ฐ์ค ์ํ์ค๋ก ์ ์ฒด์ ์ธ ์์ง์์ ์ ์ดํฉ๋๋ค. ํนํ 'pixel warper'๋ผ๋ ์๋ก์ด ๊ธฐ์ ์ ๋์ ํ์ฌ ์ฐธ์กฐ ์ด๋ฏธ์ง์ ์ฃผ์ ์ง์ ๋ค๊ณผ ๊ทธ๋ค์ ์์ง์ ๊ถค์ ์ ์ ๋ ฅ๋ฐ์ ์ธ๋ถ์ ์ธ ์ธ๊ด๊ณผ ์์ง์์ ์ ๊ตํ๊ฒ ์ ์ดํฉ๋๋ค. ๋ํ ๋น๋์ค์ ์ ์ ์ด๋ฏธ์ง๋ฅผ ๋ชจ๋ ํ์ฉํ๋ ๊ฐ์ค ์์ค ๊ธฐ๋ฐ ํ๋ จ ์ ๋ต์ ํตํด ์ฝ์ ํ์ง์ ํฅ์์์ผฐ์ผ๋ฉฐ, ์ถ๊ฐ ํ์ต ์์ด๋ ํ ํนํค๋ ์์ฑ, ๊ฐ์ ์ฐฉ์ฉ, ๋ค์ค ์์ญ ํธ์ง ๋ฑ ๋ค์ํ ์์ฉ์ด ๊ฐ๋ฅํฉ๋๋ค.

์ด ์ฐ๊ตฌ๋ ๊ธฐ์กด์ ์น ํฌ๋กค๋ง ๊ธฐ๋ฐ ๋ฐ์ดํฐ์ ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด, ์จ๋ผ์ธ ๊ต์ก ๋น๋์ค๋ฅผ ํ์ฉํ ์๋ก์ด '๋ค์ค ๋ชจ๋ฌ ๊ต๊ณผ์' ๋ฐ์ดํฐ์ ์ ์ ์ํฉ๋๋ค. 2.5๋ ๋ถ๋์ 22,000์๊ฐ์ ๋ฌํ๋ ๊ต์ก ๋น๋์ค์์ ํต์ฌ ํ๋ ์, ์์ฑ ํ ์คํธ, OCR ํ ์คํธ๋ฅผ ์ถ์ถํ๊ณ ์๊ฐ ์์๋๋ก ์ ๋ฆฌํ์ฌ, ๋ ํ๋ถํ ๊ธฐ์ด ์ง์๊ณผ ๋ ผ๋ฆฌ์ ์ผ๊ด์ฑ์ ๊ฐ์ง ์ด๋ฏธ์ง-ํ ์คํธ ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ต๋๋ค. ์ด๋ฅผ ํตํด ํ์ต๋ ์๊ฐ-์ธ์ด ๋ชจ๋ธ(VLM)์ ํนํ ScienceQA์ MathVista ๊ฐ์ ์ง์๊ณผ ์ถ๋ก ์ด ํ์ํ ์์ ์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ๋งฅ๋ฝ์ ์ดํดํ๊ณ ์๊ฐ์ , ํ ์คํธ์ ๋จ์๋ฅผ ํ์ฉํ๋ ๋ฅ๋ ฅ๋ ํฅ์๋์์ต๋๋ค.

์ด ์ฐ๊ตฌ๋ ์ปดํจํฐ ๋น์ (CV)์ด ์์ฐ์ด ์ฒ๋ฆฌ(NLP)๋งํผ์ ์ ๋ก์ท ์์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ฌ์ฑํ์ง ๋ชปํ๋ ์ด์ ๋ฅผ ํ๊ตฌํฉ๋๋ค. ์ฐ๊ตฌ์ง์ CV๊ฐ "์ด๋ฏธ์ง ๋ถํ "๊ณผ ๊ฐ์ ๋จ์ํ ์ฉ์ด์ ์ ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ฃผ์ ์ฅ์ ๋ฌผ์ด๋ผ๊ณ ๋ณด๊ณ , ๋์ ์ ๋ ฅ ์ด๋ฏธ์ง์์ ์ถ๋ ฅ๊น์ง์ ๊ณผ์ ์ ์์ธํ ์ค๋ช ํ๋ '์ค๋ช ์ ์ง์์ฌํญ(Explanatory Instructions)'์ ๋์ ํ์ต๋๋ค. 1,200๋ง ๊ฐ์ "์ด๋ฏธ์ง ์ ๋ ฅ โ ์ค๋ช ์ ์ง์์ฌํญ โ ์ถ๋ ฅ" ๋ฐ์ดํฐ์ ์ ๊ตฌ์ถํ์ฌ ์๋ ํ๊ท ๊ธฐ๋ฐ ์๊ฐ-์ธ์ด ๋ชจ๋ธ์ ํ์ต์์ผฐ๊ณ , ๊ทธ ๊ฒฐ๊ณผ ๋ชจ๋ธ์ ๊ธฐ์กด์ ๋ณด์ง ๋ชปํ CV ์์ ์ ๋ํด์๋ ๊ฐ๋ ฅํ ์ ๋ก์ท ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ต๋๋ค.

1.58-bit FLUX๋ ์ต์ ํ ์คํธ-์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ธ FLUX.1-dev๋ฅผ ๋จ 1.58๋นํธ(-1, 0, +1 ๊ฐ๋ง ์ฌ์ฉ)๋ก ์์ํํ๋๋ฐ ์ฑ๊ณตํ ์ฒซ ๋ฒ์งธ ์ ๊ทผ๋ฒ์ ๋๋ค. ํนํ ์ด๋ฏธ์ง ๋ฐ์ดํฐ ์์ด FLUX.1-dev ๋ชจ๋ธ์ ์๊ธฐ ๊ฐ๋ ํ์ต๋ง์ผ๋ก ์์ํ๋ฅผ ์ํํ๋ฉด์๋, 1024 x 1024 ํด์๋์ ์ด๋ฏธ์ง ์์ฑ์์ ์๋ณธ๊ณผ ๋น์ทํ ์ฑ๋ฅ์ ์ ์งํฉ๋๋ค. 1.58๋นํธ ์ฐ์ฐ์ ์ต์ ํ๋ ์ปค๋์ ๊ฐ๋ฐํ์ฌ ๋ชจ๋ธ ์ ์ฅ ๊ณต๊ฐ์ 7.7๋ฐฐ, ์ถ๋ก ๋ฉ๋ชจ๋ฆฌ๋ฅผ 5.1๋ฐฐ ์ค์ด๊ณ ์ถ๋ก ์๋๋ ๊ฐ์ ํ์ผ๋ฉฐ, GenEval๊ณผ T2I Compbench ๋ฒค์น๋งํฌ์์ ์ด๋ฏธ์ง ์์ฑ ํ์ง์ ์ ์งํ๋ฉด์๋ ๊ณ์ฐ ํจ์จ์ฑ์ ํฌ๊ฒ ํฅ์์์ผฐ์์ ์ ์ฆํ์ต๋๋ค.

VA-VAE(Vision foundation model Aligned Variational AutoEncoder)๋ ์ ์ฌ ํ์ฐ ๋ชจ๋ธ์ ์ต์ ํ ๋๋ ๋ง๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํ ์๋ก์ด ์ ๊ทผ๋ฒ์ ๋๋ค. ๊ธฐ์กด์๋ ์๊ฐ ํ ํฌ๋์ด์ ์ ํน์ง ์ฐจ์์ ๋๋ฆฌ๋ฉด ์ฌ๊ตฌ์ฑ ํ์ง์ ํฅ์๋์ง๋ง, ์ด์ ์์ํ๋ ๋ ํฐ ํ์ฐ ๋ชจ๋ธ๊ณผ ๋ ๋ง์ ํ์ต ๋ฐ๋ณต์ด ํ์ํ์ต๋๋ค. VA-VAE๋ ์๊ฐ ํ ํฌ๋์ด์ ๋ฅผ ํ์ตํ ๋ ์ฌ์ ํ์ต๋ ์๊ฐ ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ์ ์ฌ ๊ณต๊ฐ์ ์ ๋ ฌํจ์ผ๋ก์จ ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ๊ฐ์ ๋ ํ์ต ์ ๋ต๊ณผ ๊ตฌ์กฐ ์ค๊ณ๋ฅผ ์ ์ฉํ LightningDiT์ ๊ฒฐํฉํ์ฌ, ImageNet 256x256 ์ด๋ฏธ์ง ์์ฑ์์ ์ต๊ณ ์ฑ๋ฅ(FID 1.35)์ ๋ฌ์ฑํ์ผ๋ฉฐ, ํนํ 64 ์ํฌํฌ๋ง์ FID 2.11 ์ ์์ ๋๋ฌํ์ฌ ๊ธฐ์กด DiT๋ณด๋ค 21๋ฐฐ ์ด์ ๋น ๋ฅธ ํ์ต ์๋๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.

OS-Genesis๋ GUI ์์ด์ ํธ ํ์ต์ ์ํ ์๋ก์ด ๋ฐ์ดํฐ ํฉ์ฑ ํ์ดํ๋ผ์ธ์ ๋๋ค. ๊ธฐ์กด์ ๋ฐฉ์์ด ๋ฏธ๋ฆฌ ์ ์๋ ์์ ์ ์คํํ๊ฑฐ๋ ์ธ๊ฐ์ ๊ฐ๋ ์ ์์กดํ๋ ๊ฒ๊ณผ ๋ฌ๋ฆฌ, OS-Genesis๋ ์ด ๊ณผ์ ์ ๋ค์ง์ด ์์ด์ ํธ๊ฐ ๋จผ์ ํ๊ฒฝ์ ์ธ์ํ๊ณ ์ํธ์์ฉํ ํ, ๊ทธ ๊ฒฐ๊ณผ๋ก๋ถํฐ ๊ณ ํ์ง์ ์์ ์ ๋์ถํ๋ ๋ฐฉ์์ ์ฑํํฉ๋๋ค. ๋ํ ๊ถค์ ๋ณด์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์์ฑ๋ ์ํธ์์ฉ ๊ถค์ ์ ํ์ง์ ๋ณด์ฅํฉ๋๋ค. ์คํ ๊ฒฐ๊ณผ, OS-Genesis๋ก ํ์ต๋ GUI ์์ด์ ํธ๋ค์ ๊ธฐ์กด ๋ฐ์ดํฐ ํฉ์ฑ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ๋ ๋์ ๋ฐ์ดํฐ ํ์ง๊ณผ ๋ค์์ฑ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, ์ด๋ ค์ด ์จ๋ผ์ธ ๋ฒค์น๋งํฌ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค.

CodeElo๋ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๊ณ ๊ธ ์ฝ๋ฉ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ์๋ก์ด ๊ฒฝ์ ์์ค์ ์ฝ๋ ์์ฑ ๋ฒค์น๋งํฌ์ ๋๋ค. CodeForces ํ๋ซํผ์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ, ์ต๊ทผ 6๊ฐ์๊ฐ์ ๋ํ ๋ฌธ์ ๋ค์ ๋์ด๋ ๋ฑ๊ธ, ์๊ณ ๋ฆฌ์ฆ ํ๊ทธ ๋ฑ ์์ธ ์ ๋ณด์ ํจ๊ป ์์งํ์ผ๋ฉฐ, ๋ฌธ์ ๋ฅผ ์ง์ ํ๋ซํผ์ ์ ์ถํ์ฌ ํ๊ฐํ๋ ๋ ํนํ ์ฌ์ฌ ๋ฐฉ์์ ๋์ ํ์ต๋๋ค. ํนํ ์ธ๊ฐ ์ฐธ๊ฐ์๋ค๊ณผ ๋น๊ต ๊ฐ๋ฅํ Elo ๋ฑ๊ธ ๊ณ์ฐ ์์คํ ์ ๊ฐ๋ฐํ์ฌ, 33๊ฐ์ LLM์ ํ๊ฐํ ๊ฒฐ๊ณผ o1-mini์ QwQ-32B-Preview๊ฐ ๊ฐ๊ฐ 1578๊ณผ 1261์ Elo ๋ฑ๊ธ์ ๋ฌ์ฑํ ๋ฐ๋ฉด, ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๊ฐ์ฅ ์ฌ์ด ๋ฌธ์ ๋ค๋ ์ด๋ ค์ํ๋ฉฐ ์ธ๊ฐ ์ฐธ๊ฐ์ ์ค ํ์ 25%์ ๋จธ๋ฌผ๋ ์ต๋๋ค.

์ด ์ฐ๊ตฌ๋ ์์ฐ์ด ์ฒ๋ฆฌ์์ ์์๋ ๋ค์ ํ ํฐ ์์ธก(Next Token Prediction, NTP)์ด ๋ค์ํ ๋ชจ๋ฌ๋ฆฌํฐ(ํ ์คํธ, ์ด๋ฏธ์ง, ๋น๋์ค ๋ฑ)์ ๊ธฐ๊ณํ์ต ์์ ์์ ์ด๋ป๊ฒ ํ์ฉ๋๊ณ ์๋์ง ์ข ํฉ์ ์ผ๋ก ๋ถ์ํฉ๋๋ค. ํนํ ๋ค์ค ๋ชจ๋ฌ ํ ํฐํ, ๋ชจ๋ธ ์ํคํ ์ฒ, ํตํฉ ์์ ํํ, ๋ฐ์ดํฐ์ ๊ณผ ํ๊ฐ, ํฅํ ๊ณผ์ ๋ผ๋ ๋ค์ฏ ๊ฐ์ง ํต์ฌ ์ธก๋ฉด์์ ๋ถ๋ฅ ์ฒด๊ณ๋ฅผ ์ ์ํฉ๋๋ค. ์ต๊ทผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ด ํ ์คํธ ์์ญ์์ ์ดํด์ ์์ฑ ์์ ์ ํตํฉํ๋ฏ์ด, ๋ค๋ฅธ ๋ชจ๋ฌ๋ฆฌํฐ์ ์์ ๋ค๋ ์ ๋ณด๋ฅผ ํ ํฐํํ์ฌ NTP ํ๋ ์์ํฌ ๋ด์์ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์ฃผ๋ฉฐ, ์ด๋ ๋ค์ค ๋ชจ๋ฌ ์ธ๊ณต์ง๋ฅ ์ฐ๊ตฌ์ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.

์ด ์ฐ๊ตฌ๋ ์ฌ์ฉ์๊ฐ ์ ๊ณตํ 3D ๊ฐ์ฒด๋ฅผ ํ ์คํธ ํ๋กฌํํธ๋ฅผ ํตํด ์ ๋๋ฉ์ด์ ํํ๋ ์๋ก์ด ๋ฐฉ๋ฒ์ ์ ์ํฉ๋๋ค. ๋จผ์ 3D ๋ฉ์๋ฅผ '์ ์ ' 4D Neural Radiance Field(NeRF)๋ก ๋ณํํ์ฌ ์๋ณธ ๊ฐ์ฒด์ ์๊ฐ์ ํน์ฑ์ ๋ณด์กดํ๊ณ , ์ดํ ํ ์คํธ ๊ธฐ๋ฐ ์ด๋ฏธ์ง-๋น๋์ค ํ์ฐ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ ๋๋ฉ์ด์ ์ ์์ฑํฉ๋๋ค. ํนํ ์์ฐ์ค๋ฌ์ด ์์ง์์ ์ํ ์ ์ง์ ์์ ์ ํ ํ๋กํ ์ฝ๊ณผ ์ฃผ์ ๋งต์ ํ์ฉํ ๋ง์คํฌ๋ Score Distillation Sampling(SDS) ์์ค ํจ์๋ฅผ ๋์ ํ์ต๋๋ค. ์คํ ๊ฒฐ๊ณผ, ์๊ฐ์ ์ผ๊ด์ฑ, ํ๋กฌํํธ ์ค์๋, ์๊ฐ์ ํ์ง ๋ฉด์์ ๊ธฐ์กด ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ, LPIPS ์ ์ ๊ธฐ์ค์ผ๋ก ์ต๋ 3๋ฐฐ ํฅ์๋ ์ ์ฒด์ฑ ๋ณด์กด์ ๋ฌ์ฑํ์ต๋๋ค.