[2025/W03] ๐Ÿค— Weekly AI Research

Skyยท2025๋…„ 1์›” 25์ผ

Weekly AI Research Digest

๋ชฉ๋ก ๋ณด๊ธฐ
3/89

2025๋…„ 3์ฃผ์ฐจ์— ๊ณต๊ฐœ๋œ ์ฃผ๋ชฉํ• ๋งŒํ•œ AI ๋ถ„์•ผ์˜ ๋…ผ๋ฌธ๋“ค์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ธฐ์ˆ  ๋ถ„์•ผ

Enabling Scalable Oversight via Self-Evolving Critic

Paper

SCRIT(Self-evolving CRITic)๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ๋น„ํ‰ ๋Šฅ๋ ฅ์„ ์™ธ๋ถ€ ๊ฐ๋… ์—†์ด ์ž์ฒด์ ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ค๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ์ ‘๊ทผ๋ฒ•๋“ค์ด ์ธ๊ฐ„์˜ ํ‰๊ฐ€๋‚˜ ๋” ๊ฐ•๋ ฅํ•œ ๋ชจ๋ธ์— ์˜์กดํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, SCRIT๋Š” ์ฐธ์กฐ ํ•ด๊ฒฐ์ฑ…์„ ์‚ฌ์šฉํ•œ ๋Œ€์กฐ ๊ธฐ๋ฐ˜ ์ž๊ธฐ ๋น„ํ‰๊ณผ ์ˆ˜์ • ๊ฒฐ๊ณผ๋ฅผ ํ†ตํ•œ ์ž์ฒด ๊ฒ€์ฆ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ†ตํ•ด ํ•ฉ์„ฑ ๋ฐ์ดํ„ฐ๋ฅผ ์ƒ์„ฑํ•˜๊ณ  ์ด๋ฅผ ํ•™์Šตํ•จ์œผ๋กœ์จ ๋น„ํ‰ ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. Qwen2.5-72B-Instruct๋ฅผ ์‚ฌ์šฉํ•œ ์‹คํ—˜์—์„œ ๋น„ํ‰-์ˆ˜์ • ๋ฐ ์˜ค๋ฅ˜ ์‹๋ณ„ ๋ฒค์น˜๋งˆํฌ์—์„œ ์ตœ๋Œ€ 10.3%์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๋ฐ์ดํ„ฐ์™€ ๋ชจ๋ธ ํฌ๊ธฐ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜๊ณ  ์ž์ฒด ๊ฒ€์ฆ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

Transformer^2: Self-adaptive LLMs

Paper, Project

Transformer^2๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์ด ์‹ค์‹œ๊ฐ„์œผ๋กœ ์ƒˆ๋กœ์šด ์ž‘์—…์— ์ ์‘ํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ•˜๋Š” ํ˜์‹ ์ ์ธ ์ž๊ฐ€ ์ ์‘ ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์˜ ํŠน์ด ์„ฑ๋ถ„๋งŒ์„ ์„ ํƒ์ ์œผ๋กœ ์กฐ์ •ํ•˜๋Š” ๋ฐฉ์‹์„ ์ฑ„ํƒํ•˜๋ฉฐ, ์ถ”๋ก  ๊ณผ์ •์—์„œ ๋‘ ๋‹จ๊ณ„ ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค: ๋จผ์ € ์ž‘์—…์˜ ํŠน์„ฑ์„ ํŒŒ์•…ํ•˜๊ณ , ๊ฐ•ํ™”ํ•™์Šต์œผ๋กœ ํ›ˆ๋ จ๋œ ์ž‘์—…๋ณ„ "์ „๋ฌธ๊ฐ€" ๋ฒกํ„ฐ๋“ค์„ ๋™์ ์œผ๋กœ ํ˜ผํ•ฉํ•˜์—ฌ ์ž…๋ ฅ๋œ ํ”„๋กฌํ”„ํŠธ์— ๋งž๋Š” targeted ํ–‰๋™์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. LoRA์™€ ๊ฐ™์€ ๊ธฐ์กด ๋ฐฉ์‹๋“ค๋ณด๋‹ค ์ ์€ ๋งค๊ฐœ๋ณ€์ˆ˜๋กœ ๋” ๋†’์€ ํšจ์œจ์„ฑ์„ ๋‹ฌ์„ฑํ–ˆ์œผ๋ฉฐ, ๋‹ค์–‘ํ•œ LLM ๊ตฌ์กฐ์™€ ์‹œ๊ฐ-์–ธ์–ด ์ž‘์—…์—์„œ๋„ ๋›ฐ์–ด๋‚œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์–ด ์ง„์ •ํ•œ ๋™์ , ์ž๊ธฐ ์กฐ์งํ™” AI ์‹œ์Šคํ…œ์„ ์œ„ํ•œ ์ค‘์š”ํ•œ ์ง„์ „์„ ์ด๋ฃจ์—ˆ์Šต๋‹ˆ๋‹ค.

MiniMax-01: Scaling Foundation Models with Lightning Attention

Paper, Project

MiniMax-01 ์‹œ๋ฆฌ์ฆˆ๋Š” MiniMax-Text-01๊ณผ MiniMax-VL-01์„ ํฌํ•จํ•˜๋Š” ์ƒˆ๋กœ์šด ๋ชจ๋ธ๋กœ, ์ตœ๊ณ  ์ˆ˜์ค€์˜ ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฌ์ค„๋งŒํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉด์„œ๋„ ๋” ๊ธด ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๋ฒˆ๊ฐœ ์ฃผ์˜(lightning attention) ๋ฉ”์ปค๋‹ˆ์ฆ˜๊ณผ ์ „๋ฌธ๊ฐ€ ํ˜ผํ•ฉ(MoE)์„ ํ†ตํ•ฉํ•˜์—ฌ ์ด 4,560์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๋ฅผ ๊ฐ€์ง„ ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ์œผ๋ฉฐ, ๊ฐ ํ† ํฐ๋‹น 459์–ต ๊ฐœ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ํ™œ์„ฑํ™”๋ฉ๋‹ˆ๋‹ค. ์ตœ์ ํ™”๋œ ๋ณ‘๋ ฌ ์ „๋žต๊ณผ ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ-ํ†ต์‹  ์ค‘์ฒฉ ๊ธฐ์ˆ ์„ ๊ฐœ๋ฐœํ•˜์—ฌ ์ˆ˜๋ฐฑ๋งŒ ํ† ํฐ์˜ ์ปจํ…์ŠคํŠธ๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๊ฒŒ ํ–ˆ์œผ๋ฉฐ, ํŠนํžˆ MiniMax-Text-01์€ ํ•™์Šต ์‹œ 100๋งŒ ํ† ํฐ, ์ถ”๋ก  ์‹œ 400๋งŒ ํ† ํฐ๊นŒ์ง€ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ GPT-4o์™€ Claude-3.5-Sonnet๊ณผ ๊ฐ™์€ ์ตœ์‹  ๋ชจ๋ธ๋“ค๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉด์„œ๋„ 20-32๋ฐฐ ๋” ๊ธด ์ปจํ…์ŠคํŠธ ์œˆ๋„์šฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

Tensor Product Attention Is All You Need

Paper, Project

Tensor Product Attention(TPA)๋Š” ํ…์„œ ๋ถ„ํ•ด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ์ฟผ๋ฆฌ, ํ‚ค, ๊ฐ’์„ ์••์ถ•์ ์œผ๋กœ ํ‘œํ˜„ํ•จ์œผ๋กœ์จ ์–ธ์–ด ๋ชจ๋ธ์˜ ํ‚ค-๊ฐ’(KV) ์บ์‹œ ํฌ๊ธฐ๋ฅผ ํฌ๊ฒŒ ์ค„์ด๋Š” ์ƒˆ๋กœ์šด ์ฃผ์˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜์ž…๋‹ˆ๋‹ค. ๋งฅ๋ฝ์  ์ €์ฐจ์› ์„ฑ๋ถ„์œผ๋กœ ํ‘œํ˜„์„ ๋ถ„ํ•ดํ•˜๊ณ (๋งฅ๋ฝ์  ๋ถ„ํ•ด) RoPE์™€ ์›ํ™œํ•˜๊ฒŒ ํ†ตํ•ฉํ•˜์—ฌ ๋ชจ๋ธ ํ’ˆ์งˆ๊ณผ ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ์„ ๋™์‹œ์— ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐœ๋ฐœ๋œ T6(Tensor ProducT ATTenTion Transformer) ๋ชจ๋ธ์€ MHA, MQA, GQA, MLA ๋“ฑ ๊ธฐ์กด์˜ Transformer ๊ธฐ์ค€ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ์ œํ•œ๋œ ์ž์›์—์„œ๋„ ๋” ๊ธด ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ํ˜„๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์˜ ์ค‘์š”ํ•œ ํ™•์žฅ์„ฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ–ˆ์Šต๋‹ˆ๋‹ค.

๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI/์‹œ๊ฐ-์–ธ์–ด ์ฒ˜๋ฆฌ ๋ถ„์•ผ

VideoRAG: Retrieval-Augmented Generation over Video Corpus

Paper

VideoRAG๋Š” ๊ธฐ์กด์˜ ํ…์ŠคํŠธ ์ค‘์‹ฌ RAG(Retrieval-Augmented Generation) ์ ‘๊ทผ๋ฒ•์„ ํ™•์žฅํ•˜์—ฌ ๋น„๋””์˜ค๋ฅผ ์ง€์‹ ์†Œ์Šค๋กœ ํ™œ์šฉํ•˜๋Š” ์ƒˆ๋กœ์šด ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. ๊ธฐ์กด ๋ฐฉ์‹๋“ค์ด ๋ฏธ๋ฆฌ ์ •์˜๋œ ๋น„๋””์˜ค๋ฅผ ์‚ฌ์šฉํ•˜๊ฑฐ๋‚˜ ๋น„๋””์˜ค๋ฅผ ๋‹จ์ˆœํžˆ ํ…์ŠคํŠธ๋กœ ๋ณ€ํ™˜ํ–ˆ๋˜ ๊ฒƒ๊ณผ ๋‹ฌ๋ฆฌ, VideoRAG๋Š” ์งˆ์˜์— ๋”ฐ๋ผ ๊ด€๋ จ ๋น„๋””์˜ค๋ฅผ ๋™์ ์œผ๋กœ ๊ฒ€์ƒ‰ํ•˜๊ณ  ๋น„๋””์˜ค์˜ ์‹œ๊ฐ์ , ํ…์ŠคํŠธ์  ์ •๋ณด๋ฅผ ๋ชจ๋‘ ํ™œ์šฉํ•˜์—ฌ ์ถœ๋ ฅ์„ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋Œ€๊ทœ๋ชจ ๋น„๋””์˜ค ์–ธ์–ด ๋ชจ๋ธ(LVLM)์„ ํ™œ์šฉํ•˜์—ฌ ๋น„๋””์˜ค ์ฝ˜ํ…์ธ ๋ฅผ ์ง์ ‘ ์ฒ˜๋ฆฌํ•˜๊ณ  ๊ฒ€์ƒ‰๋œ ๋น„๋””์˜ค๋ฅผ ์งˆ์˜์™€ ํ•จ๊ป˜ ์›ํ™œํ•˜๊ฒŒ ํ†ตํ•ฉํ•˜๋Š” ๋ฐฉ์‹์„ ์ฑ„ํƒํ–ˆ์œผ๋ฉฐ, ์‹คํ—˜์„ ํ†ตํ•ด ๊ด€๋ จ ๊ธฐ์ค€ ๋ชจ๋ธ๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์‹œ๊ฐ์  ์ถ”๋ก  ๋Šฅ๋ ฅ์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์ข…ํ•ฉ์ ์ธ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ์„ธ ๊ฐ€์ง€ ์ฃผ์š” ๊ธฐ์—ฌ๋ฅผ ํ•ฉ๋‹ˆ๋‹ค: 1) ๋ณต์žกํ•œ ์‹œ๊ฐ ์ธ์‹๋ถ€ํ„ฐ ๊ณผํ•™์  ์ถ”๋ก ๊นŒ์ง€ 8๊ฐœ ์นดํ…Œ๊ณ ๋ฆฌ์— ๊ฑธ์ณ 4์ฒœ ๊ฐœ ์ด์ƒ์˜ ์ถ”๋ก  ๋‹จ๊ณ„๋ฅผ ํฌํ•จํ•˜๋Š” ์ƒˆ๋กœ์šด ์‹œ๊ฐ ์ถ”๋ก  ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋„์ž…, 2) ๊ฐœ๋ณ„ ๋‹จ๊ณ„์˜ ์ •ํ™•์„ฑ๊ณผ ๋…ผ๋ฆฌ์  ์ผ๊ด€์„ฑ์„ ํ‰๊ฐ€ํ•˜๋Š” ์ƒˆ๋กœ์šด ํ‰๊ฐ€ ์ง€ํ‘œ ๊ฐœ๋ฐœ, 3) ๋‹จ๊ณ„์  ์ปค๋ฆฌํ˜๋Ÿผ ํ•™์Šต ์ ‘๊ทผ๋ฒ•์„ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ๋œ ์ƒˆ๋กœ์šด ๋‹ค์ค‘ ๋ชจ๋‹ฌ ์‹œ๊ฐ ์ถ”๋ก  ๋ชจ๋ธ LlamaV-o1 ๊ฐœ๋ฐœ. LlamaV-o1์€ ๊ธฐ์กด ์˜คํ”ˆ์†Œ์Šค ๋ชจ๋ธ๋“ค์„ ๋Šฅ๊ฐ€ํ•˜๊ณ  ๋น„๊ณต๊ฐœ ๋…์  ๋ชจ๋ธ๋“ค๊ณผ ๊ฒฌ์ค„๋งŒํ•œ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ํŠนํžˆ Llava-CoT๋ณด๋‹ค 6๊ฐœ ๋ฒค์น˜๋งˆํฌ์—์„œ ํ‰๊ท  3.8% ๋” ๋†’์€ ์ ์ˆ˜๋ฅผ ๋‹ฌ์„ฑํ•˜๋ฉด์„œ๋„ ์ถ”๋ก  ์†๋„๋Š” 5๋ฐฐ ๋” ๋น ๋ฆ…๋‹ˆ๋‹ค.

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Paper, Project

BIOMEDICA๋Š” ์ƒ๋ฌผํ•™๊ณผ ์˜ํ•™ ๋ถ„์•ผ์˜ ์‹œ๊ฐ-์–ธ์–ด ๋ชจ๋ธ(VLM) ๊ฐœ๋ฐœ์„ ์œ„ํ•œ ๋Œ€๊ทœ๋ชจ ์˜คํ”ˆ์†Œ์Šค ํ”„๋ ˆ์ž„์›Œํฌ์ž…๋‹ˆ๋‹ค. PubMed Central์˜ ์˜คํ”ˆ ์•ก์„ธ์Šค ๋…ผ๋ฌธ๋“ค์—์„œ 2,400๋งŒ ๊ฐœ ์ด์ƒ์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ์„ ์ถ”์ถœํ•˜๊ณ  ์ฃผ์„์„ ๋‹ฌ์•„ ํฌ๊ด„์ ์ธ ๋ฐ์ดํ„ฐ์…‹์„ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๊ฐœ๋ฐœ๋œ BMCA-CLIP ๋ชจ๋ธ์€ ์ŠคํŠธ๋ฆฌ๋ฐ ๋ฐฉ์‹์œผ๋กœ ์ง€์†์ ์ธ ์‚ฌ์ „ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ, ๋ณ‘๋ฆฌํ•™, ๋ฐฉ์‚ฌ์„ ํ•™, ์•ˆ๊ณผํ•™, ํ”ผ๋ถ€๊ณผํ•™, ์™ธ๊ณผํ•™, ๋ถ„์ž์ƒ๋ฌผํ•™, ๊ธฐ์ƒ์ถฉํ•™, ์„ธํฌ์ƒ๋ฌผํ•™ ๋“ฑ 40๊ฐœ ์ž‘์—…์—์„œ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ œ๋กœ์ƒท ๋ถ„๋ฅ˜์—์„œ ํ‰๊ท  6.56%(ํ”ผ๋ถ€๊ณผํ•™์—์„œ 29.8%, ์•ˆ๊ณผํ•™์—์„œ 17.5%)์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ๊ธฐ์กด ๋ฐฉ๋ฒ•๋ณด๋‹ค 10๋ฐฐ ์ ์€ ๊ณ„์‚ฐ๋Ÿ‰์œผ๋กœ ๋” ๋‚˜์€ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ๊ฒ€์ƒ‰ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค.

๋กœ๋ณดํ‹ฑ์Šค/์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ

OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๊ตฌ์กฐํ™”๋˜์ง€ ์•Š์€ ํ™˜๊ฒฝ์—์„œ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ๋Š” ์ผ๋ฐ˜์ ์ธ ๋กœ๋ด‡ ์‹œ์Šคํ…œ ๊ฐœ๋ฐœ์„ ์œ„ํ•ด ์ƒˆ๋กœ์šด ๊ฐ์ฒด ์ค‘์‹ฌ ํ‘œํ˜„ ๋ฐฉ์‹์„ ์ œ์•ˆํ•ฉ๋‹ˆ๋‹ค. ๋น„์ „-์–ธ์–ด ๋ชจ๋ธ(VLM)์ด ์ƒ์‹์  ์ถ”๋ก ์—๋Š” ๋›ฐ์–ด๋‚˜์ง€๋งŒ ์ •๋ฐ€ํ•œ ์กฐ์ž‘์— ํ•„์š”ํ•œ 3D ๊ณต๊ฐ„ ์ดํ•ด๊ฐ€ ๋ถ€์กฑํ•˜๋‹ค๋Š” ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด, ๊ฐ์ฒด์˜ ๊ธฐ๋Šฅ์  ํŠน์„ฑ์— ๊ธฐ๋ฐ˜ํ•œ ์ •๊ทœ ๊ณต๊ฐ„์„ ๋„์ž…ํ•˜์—ฌ ์ƒํ˜ธ์ž‘์šฉ ๊ธฐ๋ณธ ์š”์†Œ(์ ๊ณผ ๋ฐฉํ–ฅ)๋ฅผ ์˜๋ฏธ์žˆ๊ฒŒ ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ์ด์ค‘ ํ์‡„ ๋ฃจํ”„ ๋ฐฉ์‹์„ ํ†ตํ•ด ๊ธฐ๋ณธ ์š”์†Œ ์žฌ์ƒ˜ํ”Œ๋ง, ์ƒํ˜ธ์ž‘์šฉ ๋ Œ๋”๋ง, VLM ํ™•์ธ์„ ํ†ตํ•œ ๊ณ ์ˆ˜์ค€ ๊ณ„ํš๊ณผ 6D ํฌ์ฆˆ ์ถ”์ ์„ ํ†ตํ•œ ์ €์ˆ˜์ค€ ์‹คํ–‰์„ ๊ฒฐํ•ฉํ•˜์—ฌ, VLM์˜ ๋ฏธ์„ธ์กฐ์ • ์—†์ด๋„ ์‹ค์‹œ๊ฐ„ ์ œ์–ด๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ฐœ๋ฐฉํ˜• ์–ดํœ˜ ๋กœ๋ด‡ ์กฐ์ž‘ ์‹œ์Šคํ…œ์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹ค์–‘ํ•œ ๋กœ๋ด‡ ์กฐ์ž‘ ์ž‘์—…์—์„œ ๋›ฐ์–ด๋‚œ ์ œ๋กœ์ƒท ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.

MangaNinja: Line Art Colorization with Precise Reference Following

Paper, Project

MangaNinja๋Š” ์ฐธ์กฐ ์ด๋ฏธ์ง€๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ผ์ธ ์•„ํŠธ๋ฅผ ์ฑ„์ƒ‰ํ•˜๋Š” ํ™•์‚ฐ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ์ •ํ™•ํ•œ ์บ๋ฆญํ„ฐ ์„ธ๋ถ€ ์‚ฌํ•ญ ์ „์‚ฌ๋ฅผ ์œ„ํ•ด ๋‘ ๊ฐ€์ง€ ํ•ต์‹ฌ ์„ค๊ณ„๋ฅผ ๋„์ž…ํ–ˆ๋Š”๋ฐ, ์ฐธ์กฐ ์ปฌ๋Ÿฌ ์ด๋ฏธ์ง€์™€ ๋Œ€์ƒ ๋ผ์ธ ์•„ํŠธ ์‚ฌ์ด์˜ ๋Œ€์‘ ๊ด€๊ณ„ ํ•™์Šต์„ ์œ„ํ•œ ํŒจ์น˜ ์…”ํ”Œ๋ง ๋ชจ๋“ˆ๊ณผ ์„ธ๋ฐ€ํ•œ ์ƒ‰์ƒ ๋งค์นญ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋Š” ํฌ์ธํŠธ ๊ธฐ๋ฐ˜ ์ œ์–ด ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ž์ฒด ์ˆ˜์ง‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๊ธฐ์กด ์†”๋ฃจ์…˜๋“ค๋ณด๋‹ค ๋” ์ •ํ™•ํ•œ ์ฑ„์ƒ‰ ์„ฑ๋Šฅ์„ ๋ณด์—ฌ์ฃผ์—ˆ์œผ๋ฉฐ, ํŠนํžˆ ์ œ์•ˆ๋œ ๋Œ€ํ™”ํ˜• ํฌ์ธํŠธ ์ œ์–ด๋ฅผ ํ†ตํ•ด ๊นŒ๋‹ค๋กœ์šด ์ผ€์ด์Šค, ์บ๋ฆญํ„ฐ ๊ฐ„ ์ฑ„์ƒ‰, ๋‹ค์ค‘ ์ฐธ์กฐ ์กฐํ™”์™€ ๊ฐ™์€ ๊ธฐ์กด ์•Œ๊ณ ๋ฆฌ์ฆ˜์œผ๋กœ๋Š” ์ฒ˜๋ฆฌํ•˜๊ธฐ ์–ด๋ ค์šด ์ž‘์—…๋“ค๋„ ์„ฑ๊ณต์ ์œผ๋กœ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Œ์„ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

์ˆ˜ํ•™์ /๋…ผ๋ฆฌ์  ์ถ”๋ก  ๋ถ„์•ผ

The Lessons of Developing Process Reward Models in Mathematical Reasoning

Paper, Project

์ด ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(LLM)์˜ ์ˆ˜ํ•™์  ์ถ”๋ก  ๊ณผ์ •์—์„œ ์ค‘๊ฐ„ ์˜ค๋ฅ˜๋ฅผ ์‹๋ณ„ํ•˜๊ณ  ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ๊ณผ์ • ๋ณด์ƒ ๋ชจ๋ธ(PRM)์˜ ๊ฐœ์„  ๋ฐฉ์•ˆ์„ ์ œ์‹œํ•ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ชฌํ…Œ์นด๋ฅผ๋กœ(MC) ์ถ”์ • ๊ธฐ๋ฐ˜ ๋ฐ์ดํ„ฐ ํ•ฉ์„ฑ์ด LLM ํŒ๋‹จ์ด๋‚˜ ์ธ๊ฐ„ ์ฃผ์„๋ณด๋‹ค ์„ฑ๋Šฅ๊ณผ ์ผ๋ฐ˜ํ™”๊ฐ€ ๋–จ์–ด์ง„๋‹ค๋Š” ์ ์„ ์‹คํ—˜์„ ํ†ตํ•ด ์ž…์ฆํ–ˆ์œผ๋ฉฐ, Best-of-N(BoN) ํ‰๊ฐ€ ์ „๋žต์˜ ์ž ์žฌ์  ํŽธํ–ฅ์„ ์„ธ ๊ฐ€์ง€(์‹ ๋ขฐํ•  ์ˆ˜ ์—†๋Š” ์ •์ฑ… ๋ชจ๋ธ์˜ ์‘๋‹ต, PRM์˜ ๊ณผ๋„ํ•œ ๊ด€์šฉ, ๊ฒฐ๊ณผ ์ค‘์‹ฌ ํ‰๊ฐ€๋กœ์˜ ํŽธํ–ฅ) ์ธก๋ฉด์—์„œ ๋ถ„์„ํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋“ค์„ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด MC ์ถ”์ •๊ณผ LLM ํŒ๋‹จ์„ ํ†ตํ•ฉํ•˜๋Š” ํ•ฉ์˜ ํ•„ํ„ฐ๋ง ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ๊ฐœ๋ฐœํ•˜๊ณ , ์‘๋‹ต ์ˆ˜์ค€๊ณผ ๋‹จ๊ณ„ ์ˆ˜์ค€ ๋ฉ”ํŠธ๋ฆญ์„ ๊ฒฐํ•ฉํ•œ ํฌ๊ด„์ ์ธ ํ‰๊ฐ€ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์•ˆํ–ˆ์œผ๋ฉฐ, ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ ์„ฑ๋Šฅ๊ณผ ๋ฐ์ดํ„ฐ ํšจ์œจ์„ฑ์„ ํฌ๊ฒŒ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.

profile
XR๊ณผ AI์— ๊ด€์‹ฌ์ด ๋งŽ์€ Sky ์ž…๋‹ˆ๋‹ค.

0๊ฐœ์˜ ๋Œ“๊ธ€