1. VLA ๊ฐ๋
์ ์
VLA ๋ชจ๋ธ์ Vision, Language, Action ์ธ ๋ชจ๋ฌ๋ฆฌํฐ๋ฅผ ํตํฉํด, ์๊ฐ-์ธ์ด ์
๋ ฅ์ ๋ฐํ์ผ๋ก ์ง์ ๋ฌผ๋ฆฌ์ ํ๋์ ์คํํ๋ ์๋ฒ ๋๋ ์ง๋ฅ ์์คํ
์
๋๋ค (arXiv).
2. ์ฃผ์ ๊ตฌ์กฐ ๋ฐ ๊ตฌ์ฑ ์์
2.1 Vision Encoder
- ์ด๋ฏธ์ง ๋๋ ์์ ํ๋ ์์ ๊ณ ์ฐจ์ ํํ์ผ๋ก ๋ณํ
- ViT, CLIP, ResNet ๊ธฐ๋ฐ VLM ์ฌ์ฉ
2.2 Language Encoder
2.3 High-Level Policy (์์ ์ ์ฑ
)
- VLM์ ์๊ฐ+์ธ์ด ์
๋ ฅ๊ณผ **๋ฐ๋ชจ ํฌ์ด ๋น๋์ค(long context)**๋ฅผ ํจ๊ป ์
๋ ฅํ์ฌ ๋ชฉํ ํ๋ ์(goal) ์์ธก
- MINT(Multimodal Instruction Navigation with Tours) ๊ณผ์ ์์ ํต์ฌ ์ญํ (Moonlight)
2.4 Low-Level Policy (ํ์ ์ ์ฑ
)
- COLMAP๋ฅผ ํตํด ์๋ ์์ฑ๋ ์์ ๊ทธ๋ํ(topological graph) ์ฌ์ฉ
- Dijkstra ๋ฐฉ์์ผ๋ก ์ต๋จ ๊ฒฝ๋ก ๊ณํํ๊ณ , ฮx, ฮy, ฮฮธ ํํ์ ํ๋(wp) ์ํ (Moonlight)
2.5 ํตํฉ ๊ตฌ์กฐ ํ๋ฆ
[๋ฉํฐ๋ชจ๋ฌ ์
๋ ฅ(ํ
์คํธยท์ด๋ฏธ์งยท์์ฑ) + ์์ฐ ๋น๋์ค]
โ ์์ ์ ์ฑ
(VLM ์ฒ๋ฆฌ) โ ๋ชฉํ ํ๋ ์ ์ธ์
โ ํ์ ์ ์ฑ
(์์ ๊ทธ๋ํ ๊ธฐ๋ฐ ๊ฒฝ๋ก ์์ฑ)
โ ๋ฌผ๋ฆฌ์ ์ด๋/์กฐ์ ์ํ
3. ๋ํ ๋ชจ๋ธ ๋ฐ ์ต์ ์ฐ๊ตฌ ๋ํฅ
๐งญ Mobility VLA (Google DeepMind)
- ์ค์ธ๊ณ 836mยฒ ์ฌ๋ฌด์ค์์ 86โ90% ์ฑ๊ณต๋ฅ ๊ธฐ๋ก (์ธ๊ณต์ง๋ฅ ํ์ฉ ์ ๋ณด ๊ณต์ )
- ๊ธด ์ปจํ
์คํธ(long-context VLM + Gemini 1.5 ํ๋ก) ๊ธฐ๋ฐ, ์ถ๋ก ์ค์ฌ multimodal ๋ช
๋ น ์ํ ๊ฐ๋ฅ (๋๋ฐํฌ)
๐ RT-2 (Google DeepMind)
- VLA์ ๋ํ ์คํ ๋ชจ๋ธ, Vision + Language โ ํ๋์ผ๋ก ๋์ ์ง๊ฒฐ (์ํค๋ฐฑ๊ณผ)
๐ ๏ธ OpenVLA (Stanford ์ธ)
- 7B parameter, 970k robot ์์ฐ ๋ฐ์ดํฐ ๊ธฐ๋ฐ ์คํ์์ค VLA
- RTโ2โX ๋๋น 16.5% ๋์ ์ฑ๊ณต๋ฅ , different robot architectures ์ง์ (arXiv)
โก TinyVLA
- ๋น ๋ฅธ ์ถ๋ก ๊ณผ ๋ฐ์ดํฐ ํจ์จ์ฑ์ ๊ฐ์ถ ๊ฒฝ๋ VLA ๋ชจ๋ธ
- ๋ถ์ฐ/ํ์ฐ(decoder+a diffusion policy) ๊ตฌ์กฐ๋ก real-world ์ ์ด๊น์ง (arXiv)
๐ง OTTER
- ํ
์คํธ ์ง์์ด์ ๋ง๋ ์๊ฐ ํผ์ณ๋ง ์ ํํ์ฌ VLM์ frozen ์ํ๋ก ํ์ฉ ์ง์นจ ์ง์ ์คํ ๊ฐ๋ฅ
- ํด๋จธ๋
ธ์ด๋ ์์ฒด์ ์๊ฐ๋ฝ ์ ์ด, ๋ค์ค ๋ก๋ด ํ์
๊น์ง ์ง์ํ๋ ์ต์ด ์ฌ๋ก
4. ๊ธฐ์ ์ ์ด์ ๋ฐ ํด๊ฒฐ ์ ๋ต
-
๋ฉํฐ๋ชจ๋ฌ ์ ๋ ฌ & ๊ธด ์ปจํ
์คํธ
- ๊ธด ์์ฐ ๋น๋์ค + VLM ์ตํฉ์ผ๋ก ๋ณต์กํ ์์ฐ์ด ์ถ๋ก ์คํ (๋๋ฐํฌ, Moonlight)
-
๊ณ์ธต์ ์ ์ฑ
๊ตฌ์ฑ
- ์์: ๋ชฉํ ์ธ์, ํ์: ๊ฒฝ๋ก ์ ์ด๋ก ์ญํ ๋ถํ โ ํจ์จ์ฑ๊ณผ ์ ํ๋ ๊ทน๋ํ
-
์ค์ธ๊ณ ์ ์ฉ ๋ฌธ์ (Sim2Real)
- ์์ ๊ทธ๋ํ์ COLMAP ์ฌ์ฉ์ผ๋ก ๋ณํ์ ๊ฐ์ธํ ๊ฒฝ๋ก ๊ณํ
-
์ ์ด ์ฃผํ์ ๋ฐ ํ๋ ํํ
5. ์์ฉ ๋ถ์ผ
- ๋ก๋ด ๋ด๋น๊ฒ์ด์
(Robotic Navigation)
- ์๋น์ค/๊ฐ์ ์ฉ/๋ฌผ๋ฅ ๋ก๋ด
- ํด๋จธ๋
ธ์ด๋ ์ผ์ ์ ์ด
- ์ฐ์
์๋ํ, ์์จ ์ฃผํ ๋ด ํ๋ ๋ช
๋ น
- HRI(HumanโRobot Interaction), ์๊ฒฉ ์ ์ด ๋ฐ ๊ต์ก
6. ์์ฝ ๋น๊ตํ
๋ชจ๋ธ๋ช
| ํ๋ผ๋ฏธํฐ | ํต์ฌ ํน์ง |
---|
Mobility VLA | Gemini ๊ธฐ๋ฐ | ๊ธด ์ปจํ
์คํธ VLM + ์์ ๊ทธ๋ํ / ์ค๋ด ๋ด๋น๊ฒ์ด์
ํนํ |
RTโ2 | closed | VLA ์ฒซ ์์ฉํ, ๋น์ ยท์ธ์ดโํ๋ ์ง์ |
OpenVLA | 7B, ๊ณต๊ฐ | ๋ค์ํ ๋ก๋ด์ง์, ์ ๋ก/์ ๋ก-์ท ๊ฐ์ |
TinyVLA | ๊ฒฝ๋ ๊ตฌ์กฐ | ์ถ๋ก ์๋ ๋ฐ ๋ฐ์ดํฐ ํจ์จ ํ์ |
OTTER | ๊ฐ์ ํ VLM | ์๊ฐ-์ธ์ด ์ ๋ ฌ ๊ฐํ, ์ ๋ก ์ท ๊ฐ๋ ฅ |
Helix | ์ ์ฒด humanoid | ์ง์ฌ ์์ค ์กฐ์ ๋ฐ ํ์
์ง์ |
7. ๋ง๋ฌด๋ฆฌ
VLA๋ ๋ณด๊ณ ยท์ดํดํ๊ณ ํ๋ํ๋ AI ๋ก๋ด ์๋๋ฅผ ์๋น๊ธฐ๊ณ ์์ต๋๋ค.
ํนํ Mobility VLA์ ๊ฐ์ ์ฌ๋ก๋ ๊ธด ๋งฅ๋ฝ ์ถ๋ก , ๊ณ์ธต์ ์ ์ฑ
, ์์ ์ ๋ณด ํ์ฉ์ด๋ผ๋ ํตํฉ ๋ฉ์ปค๋์ฆ์ผ๋ก ๋ก๋ด ๋ด๋น๊ฒ์ด์
์ฐ๊ตฌ์ ๋ฌธ์ ์ด์์ฃ .
ํฅํ ๋ฐฉํฅ
- Mobility VLA์ ์ฌ์ ์ฒ๋ฆฌ (COLMAP & ์์ ๊ทธ๋ํ ์์ฑ) ์ค์ต
- ROS2 + RTโ2 / OpenVLA ์ฐ๋ ๊ตฌ์ฑ
- TinyVLA ๊ธฐ๋ฐ ๊ฒฝ๋ํ๋ ์ค์๊ฐ ํ๋ ์์ฑ ๋ฐ๋ชจ ์งํ