피지컬 AI 란?

공부용·2025년 8월 20일
post-thumbnail

LLM이 로봇 공학에 미치는 영향

LLM 덕분에 로봇이 단순히 명령을 따르는 것을 넘어, 스스로 상황을 이해하고(contextual reasoning), 움직이고(icomotion), 물건을 잡는(grasping)등 복잡한 임무를 수행할 수 있게 되었다.

LLM의 로봇 제어 활용법

1.저수준 제어(Low-level control): LLM을 특정 보조 역할에 사용한다.

  • 예시: 강화학습에서 로봇에게 어떤 행동이 좋은지 알려주는 보상 함수를 설계, 로봇 전용 소프트웨어 코드를 생성하는 데 활용

2.고수준 계획(High-level planner): LLM을 로봇의 두뇌처럼 사용해 전체적인 행동 계획을 수립한다.

  • 최근 가장 활발하게 연구되는 분야
  • 예시: 자율주행차, 물건을 옮기는 로봇, 서비스 로봇, 길 찾는 로봇 등에 적용

LLM 기반 로봇의 작동 방식

LLM -> 로봇: LLM은 로봇이 수행할 코드를 직접 생성하거나, 어떤 행동을 할지 상위 수준에서 계획을 세워 로봇에게 전달

로봇 -> LLm: 로봇은 주변 환경에서 움직이며 자신의 상태나 센서 정보 (예: 카메라 영상)를 다시 LLM에게 전달한다. 이 피드백 루프를 통해 LLM은 상황을 파악하고 다음 행동을 결정한다.

이러한 과정을 거치면서 LLM이 상황에 따라 로봇을 움직이는 코드를 생성하고 이 코드를 실행해 로봇을 움직이게 만든다.

피지컬 AI란 무엇인가?

기존 생성형 AI를 넘어, 우리가 사는 3D 물리 세계의 법칙과 공간 관계를 이해하고 상호작용하는 AI

기존의 AI와의 차이점

  • 생성형 AI (GPT 등): 방대한 텍스트, 이미지 데이터로 학습하여 언어와 추상적 개념 생성에 뛰어남
  • 피지컬 AI: 생성형 AI에 물리 법칙, 공간 정보가 포함된 3D 시뮬레이션 데이터를 추가로 학습시켜 물리적 세계에 대한 이해를 갖춘다.

데모

용어 설명

  • 디지털 트윈: 공장과 같은 실제 공간을 가상으로 복제함
  • 물리 기반 시뮬레이션: 디지털 트윈 환경에서 로봇, 센서 등을 추가하여 실제 시나리오를 시뮬레이션한다.
  • 데이터 생성: 시뮬레이션을 통해 움직임, 충돌, 빛의 반응과 같은 정밀한 물리 데이터를 생성하여 AI 훈련에 사용한다.

창고의 자율 이동 로봇(AMR)

  • 실제 물류 센터를 가상 세계에 대로 복제하고, 그 안에서 AI 로봇들을 훈련시키며 실제 환경에 적용하기 전에 모든 것을 테스트하고 최적화하는 과정을 보여준다


디지털 트윈: NVIDIA Omniverse라는 플랫폼을 사용해 실제와 똑같은 물리 법칙이 적용되는 3D 가상 공간을 만든다. 이 공간은 실제 창고의 모든 사항을 담고 있다.

AI 로봇 훈련: 이 가상 공간 안에서 여러 대의 자율 로봇(AMR)이 서로 충돌하지 않고 가장 효율적인 경로로 물건을 옮기도록 훈련시킨다. 이때 NVIDIA Isaac Sim과 같은 로봇 시뮬레이션 도구가 사용된다.

  1. 데이터 수집

    • 시뮬레이션 창고 곳곳에 설치된 여러 대의 카메라가 사람, 로봇, 물건들의 움직임을 실시간으로 촬용한다. 이 것이 피지컬 AI 시스템의 눈 역할을 한다.
  2. 디지털 트윈 생성 및 AI 분석

    • NVIDIA Omniverse Cloud: 카메라로 수집된 모든 영상 데이터가 이곳으로 전송된다. 옴니버스는 이 데이터를 사용해 실제 창고와 똑같은 가상의 3D 공간을 만들고 실시간으로 동기화한다.

    • NVIDIA DGX Cloud: 옴니버스에서 만들어진 가상 세계의 데이터를 AI 슈퍼컴퓨터인 DGX가 분석하고 처리한다. 여기서 AI 모델이 학습하고 추론하는 과정이 이루어진다.

  3. AI 기반 솔루션 적용
    이렇게 분석된 데이터는 다음과 같은 솔루션에 활용된다.

  • Metropolis MTMC (다중 카메라 추적): 창고 내의 모든 사람과 사물의 움직임을 여러 카메라를 넘나들며 끊김 없이 추적하여 전체 상황을 파악
  • cuOpt Route Planning (경로 최적화): 로봇이나 작업자가 이동할 가장 효율적인 경로를 실시간으로 계산하여 물류 효율을 극대화
  • Metropolis VLM (비전 언어 모델): 파란색 지게차 찾아줘와 같이 사람이 말로 명령하면, AI가 영상 데이터를 이해하고 해당 장면을 찾아주는 등 지능형 영상 분석을 수행한다.

NVIDIA 기술을 활용한 피지컬 AI 적용 4단계

1단계: 가상 세계 만들기 (디지털 트윈 구축)

  • 목표: AI를 훈련시킬 놀이터, 즉 실제 세계와 똑같은 가상 환경을 만든다.

  • 핵심 도구: NVIDIA Omniverse™. 이 플랫폼을 사용해 현실의 공장이나 도시를 물리 법칙까지 똑같이 적용되는 3D 가상 공간으로 복제한다. 이것이 바로 '디지털 트윈'이다.

2단계: 훈련용 데이터 생성 (합성 데이터)

  • 목표: AI에게 현실 세계를 가르치기 위한 방대한 양의 학습 자료(데이터)를 만든다.

  • 핵심 도구: Omniverse Replicator SDK. 1단계에서 만든 가상 환경 속에서 조명, 물체의 위치, 재질 등을 무작위로 바꿔가며 수많은 가상 시나리오를 만든다. 이렇게 생성된 '합성 데이터'는 AI가 어떤 상황에서도 잘 적응하도록 훈련시키는 데 사용된다.

3단계: AI 모델 훈련 및 검증

  • 목표: 2단계에서 만든 데이터를 사용해 AI의 '뇌'를 학습시키고, 잘 배웠는지 테스트합니다.

  • 핵심 도구:
    NVIDIA DGX™ (훈련): AI를 훈련시키는 초고성능 컴퓨터이다. 방대한 합성 데이터를 빠르게 학습시킨다.
    NVIDIA Isaac Sim™ (검증): 훈련된 AI가 가상 환경 속 로봇에서 얼마나 잘 작동하는지 시뮬레이션하고 테스트하는 도구이다. 실제 로봇에 적용하기 전, 안전하게 성능을 검증하는 단계이다.

이러한 과정을 통해 실제 환경에서 발생할 수 있는 위험과 비용을 줄이면서도 매우 정교하고 똑똑한 자율 시스템을 만들 수 있다.

앞으로 할일

피지컬 AI 사업에서 우리가 맡은 파트는 LLM 보안이다. 로봇과 연결된 LLM을 해킹하는 기술을 확인하고 방지하는 솔루션을 만들어야한다.

LLM 학습을 위한 GPU 서버가 할당이 된다고 하는데 사용할 수 있을지는 미지수이다. 학교에서 디지털 트윈을 구축하고 있다고 하는데, 해당 환경에서 앞으로 만들 파운데이션 모델을 대상으로 탈옥(Jailbreaking)을 수행하고 탈옥을 막는 솔루션을 제작해야한다.

먼저 도메인 분석을 우선으로 전통적인 탈옥 방지 기술인 PAIR 알고리즘과 파생 기술이 있는지 찾아 볼 계획이다.

레퍼런스

https://www.nvidia.com/ko-kr/glossary/generative-physical-ai/
https://blogs.nvidia.com/blog/ai-digital-twins-industrial-automation-demo/

profile
공부 내용을 가볍게 적어놓는 블로그.

0개의 댓글