모방학습이란?(정의)
모방학습(Imitation Learning)은 전문가(사람/기존 정책)의 시연(demonstration) 데이터를 이용해, 에이전트가 전문가처럼 행동하는 정책(policy) 을 학습하는 강화학습/로봇학습 방법입니다.
- 입력: 상태/관측 (s) (또는 이미지, 센서 등)
- 정답(라벨): 전문가가 그 상태에서 한 행동 (a)
- 목표: (\pi(a|s)) 가 전문가 행동을 최대한 잘 따라 하도록 학습
가장 직관적인 형태는 행동을 라벨로 두고 지도학습처럼 학습하는 방식(Behavior Cloning, BC) 입니다.
(즉 “상황 → 전문가 행동” 매핑을 그대로 배우는 것)
- 질문 : 1) 모방학습(IL) vs 강화학습(RL) 차이
- 질문 : 2) BC vs IRL vs GAIL (무슨 걸 “학습”하느냐가 다름)
좋아. “요즘(2025~2026) 모방학습/로봇 정책학습 SOTA가 어디로 가는지”를 방향성(트렌드) 중심으로 정리해줄게. (한 줄로 말하면: BC를 크게 키우되, Diffusion/Transformer/VLA/Offline-RL/World-Model로 ‘일반화·장기과제·실세계 안정성’을 해결하는 쪽이 메인 흐름이야.)
0) 지금 SOTA를 움직이는 큰 축 5개
축 A. Diffusion 기반 정책(Diffusion Policy 계열) → “멀티모달 행동 분포”를 잘 모델링
핵심 키워드: action chunking, long-horizon, contact/foresight guidance, diffusion transformer
축 B. VLA(vision-language-action) / 로봇 파운데이션 모델 → “언어+시각+행동” 일반화
- 방향성: “로봇을 범용 에이전트처럼” 만들기 위해 VLM + 정책(continuous action head: diffusion/flow 등) 조합이 주류가 됨. (arXiv)
- 실제로 VLA 모델을 특정 벤치마크에서 적응(adaptation) 해서 우승 수준 성능을 낸 사례도 나옴. (arXiv)
핵심 키워드: instruction-following, cross-task generalization, action representation(토큰 vs 연속), fine-tuning/adaptation
축 C. Offline RL + “데모/로그 데이터” → 실세계에서 안전하게 성능 끌어올리기
- 실세계 로봇은 온라인 탐색이 위험/비싸서, 오프라인 데이터만으로 RL을 돌리는 파이프라인이 커지고 있어.
- 특히 로봇에서 잘 안 되던 offline MBRL(월드모델 기반 RL)을 “물리 로봇에서도 돌아가게” 만드는 시도들이 나옴. (OpenReview)
- “라벨 없는 오프라인 데이터에서 자동으로 reward를 만들고 정책을 학습” 같은 방향도 강함. (arXiv)
핵심 키워드: offline RL, uncertainty penalty, reward labeling, world model
축 D. 장기 과제(Long-horizon) / 계층적 정책(Hierarchical)
- 로봇에서 진짜 어려운 건 “짧은 스킬”이 아니라 집안일/정리 같은 장기 태스크라서,
- 고수준 계획(서브태스크) + 저수준 제어(연속 액션)를 계층화하거나, 메모리/상태추정/시간모델링을 강화하는 흐름이 있음.
(예: “BEHAVIOR Challenge” 같이 장기 가사 태스크 벤치마크 성과를 내는 방향) (arXiv)
핵심 키워드: hierarchical, memory, temporal modeling, task-and-motion
축 E. Adversarial IL / IRL은 ‘특수 목적’으로 계속 쓰임
- GAIL/AIRL류는 “전문가 분포 맞추기”에 강점이 있지만 RL 루프가 들어가서 비용/튜닝이 큼.
- 다만 특정 문제(내비게이션, 적응, 사회적 규범 등) 에서는 여전히 연구가 이어짐. (OpenReview)
- IRL 자체는 리뷰/정리도 계속 나오면서 “어디에 쓸지”가 정리되는 중. (Springer)
1) “이쪽은 요즘 어떻게 하냐?”를 한 문장으로
요즘은 대개 이렇게 감:
- BC(시연)로 기본 스킬을 만들고
- Diffusion/Transformer/VLA로 일반화·멀티모달·장기성을 키우고 (Frontiers)
- 부족한 부분은 Offline RL / World Model / reward 자동화로 끌어올리고 (OpenReview)
- 특정 도메인은 GAIL/IRL로 “행동 이유(보상/규범)”까지 모델링
2) 네가 “최신 SOTA 논문 방향성”을 직접 조사하는 실전 루틴
(이대로 하면 2~3시간 안에 최신 지도 만들 수 있어.)
-
Step 1. 최우선 venue/키워드로 훑기
- CoRL / RSS / ICRA / IROS / NeurIPS / ICLR
- 키워드: diffusion policy, VLA, offline RL from demonstrations, robot foundation model, world model robotics
- CoRL 2025 리스트 같은 “큐레이션”도 출발점으로 좋아. (GitHub)
-
Step 2. “대표 축 5개”별로 2~3편씩 뽑기
- Diffusion Policy survey로 큰 그림 잡기 (Frontiers)
- Diffusion Transformer/장기 제어 쪽 대표 (arXiv)
- Offline MBRL/Reward 자동화 쪽 대표 (OpenReview)
- VLA adaptation/벤치마크 성과 (arXiv)
-
Step 3. 각 논문에서 “방법 3줄 요약 + 무엇이 새롭나 + 한계”만 뽑기
- (네가 원하면 내가 논문별로 이 템플릿에 맞춰 표로 정리해줄 수도 있어.)
원하면 내가 지금 찾은 흐름을 기반으로,
- “BC 기반 로봇 정책” vs “Diffusion Policy” vs “VLA” 중에 너 상황(ROS/로봇/데이터 수집 방식)에 뭐가 최적인지,
- 네가 하던 프로젝트(로봇/비전/임베디드)랑 연결해서 올해 포트폴리오로 먹히는 연구 주제 3개
까지 바로 설계해줄게.
너는 지금 관심이 매니퓰레이션(팔) 쪽이야, 아니면 이동/내비게이션 쪽이야? (둘 다면 “우선순위 1개”만 찍어줘.)