Abstract
최근 연구에서는 대규모 태스크 플래닝(task planning)의 어려움을 극복하기 위해 LLM(대규모 언어 모델)을 단순히 정책(policy)으로 사용하는 것에서 한 걸음 더 나아가, LLM이 내포한 상식적(world model) 세계관과 정책 기능을 모두 활용하는 방법을 제시합니다.
연구 배경 및 동기
- 태스크 플래닝의 난제: 복잡한 문제 해결이나 새로운 작업에 대해 기존의 플래닝 방법은 한계가 많았습니다.
- LLM의 잠재력: GPT2나 GPT3.5와 같은 LLM들은 단순한 정책 역할뿐만 아니라, 세상을 이해하는 상식적 모델(world model)로서의 역할도 수행할 수 있음이 드러났습니다.
LLM-MCTS 알고리즘의 핵심
- LLM의 이중 역할:
- 상식적 세계 모델: LLM이 제공하는 상식 지식을 통해, 문제 상황에 대한 사전 확률(prior belief)을 MCTS에 제공하여 더 효과적인 추론이 가능하게 합니다.
- 정책 힌트: 동시에 LLM은 탐색을 가이드하는 휴리스틱(heuristic) 역할을 수행하여, 탐색 효율을 크게 향상시킵니다.
- 결합의 시너지: 이 두 가지 역할을 결합한 LLM-MCTS는 기존의 MCTS나 단순 LLM 정책 기반 방법보다 훨씬 뛰어난 성능을 보입니다.
실험 및 결과
- 다양한 태스크 적용: 곱셈, 여행 계획, 사물 재배치 등 다양한 복잡하고 새로운 작업에서 LLM-MCTS가 우수한 성능을 입증했습니다.
- MDL 원칙: 실험 결과, 세계 모델의 기술(description) 길이가 정책보다 훨씬 짧을 경우, 모델 기반 플래닝(model-based planning)에서 LLM을 세계 모델로 활용하는 것이 단순 정책 활용보다 유리함을 시사합니다.
Introduction
최근 연구에서는 집안 환경에서 자율적으로 작업을 수행하는 로봇의 태스크 플래닝 문제를 해결하기 위해, 대규모 언어 모델(LLM)의 상식 지식과 계획 알고리즘을 결합한 새로운 접근법이 제안되었습니다. 오늘은 이 혁신적인 접근법, LLM-MCTS에 대해 알아보겠습니다.
문제 제기: 왜 태스크 플래닝이 어려울까?
집안 로봇이 “과일을 냉장고에 넣어줘”라는 명령을 받았다고 상상해보세요.
- 과일의 위치 추정: 사과, 복숭아 등 과일은 식탁, 부엌 카운터 등 여러 곳에 있을 수 있습니다.
- 탐색 공간의 폭발성: 집안에는 수백 개의 아이템과 장소가 존재하므로, 어디에 무엇이 있을지 탐색하는 공간이 매우 큽니다.
이처럼 거대한 탐색 공간 때문에, 로봇이 효율적으로 작업을 수행하는 것은 큰 도전 과제로 남아있습니다.
기존 접근법: L-Policy와 L-Model
L-Policy: LLM을 직접 정책으로 활용
- 전략: 로봇이 과거 행동 및 관찰 기록을 바탕으로 LLM에게 다음 행동을 직접 물어보는 방식입니다.
- 장점: LLM이 가진 방대한 상식 지식을 활용해 빠르게 행동 지침을 얻을 수 있습니다.
- 한계: 새로운 복잡한 작업에서는 일반화 능력이 떨어져, 성능이 급격히 저하됩니다.
L-Model: LLM을 세계 모델로 활용한 계획
- 전략: LLM이 집안 환경에 대한 상식적 세계 모델을 구축하여, 과일의 위치에 대한 확률 분포를 제공하고, 이를 기반으로 탐색 알고리즘(예: MCTS)을 적용합니다.
- 장점: 탐색 효율을 크게 향상시킬 수 있지만, 세계 모델의 정확도와 탐색 알고리즘의 계산 복잡도에 크게 의존합니다.
- 한계: 단독으로 사용 시, 거대한 탐색 공간 문제를 해결하지 못해 성능이 좋지 않은 경우가 많습니다.
혁신적인 결합: LLM-MCTS
LLM-MCTS는 L-Policy와 L-Model의 장점을 결합하여, 다음과 같이 작동합니다.
- 상식적 세계 모델: LLM이 제공하는 상식적 정보로 현재 상태의 초기 추정치를 생성합니다.
- Monte Carlo Tree Search (MCTS): 이 초기 상태를 바탕으로 탐색 트리를 구성하여, 로봇이 취할 수 있는 다양한 행동 경로를 시뮬레이션합니다.
- 휴리스틱 가이드: 탐색 과정에서는 LLM이 휴리스틱 정책으로서, 유망한 행동 경로를 선택하는 데 도움을 줍니다.
이 방식은 LLM의 직접 명령 방식(L-Policy)보다 탐색의 깊이와 정밀도를 높여, 특히 복잡하고 새로운 작업에서 뛰어난 성능을 보여줍니다.
실험 및 사례 분석
연구진은 VirtualHome이라는 가상 집안 시뮬레이션 플랫폼에서 800개의 다양한 객체 재배치 작업을 평가했습니다. 주요 결과는 다음과 같습니다:
- L-Model 단독: 탐색 공간의 크기로 인해 성능이 저조.
- L-Policy 단독: GPT2와 GPT3.5를 활용해 어느 정도 성능을 보였으나, 복잡한 작업에서 성능이 급감.
- LLM-MCTS: 두 방법을 결합함으로써, 복잡한 작업에서도 뛰어난 성능을 입증.
또한, 곱셈이나 여행 계획과 같은 간단한 작업에서는 MDL(최소 설명 길이) 원칙에 따라, 단순한 세계 모델(L-Model)이 오히려 더 우수한 결과를 보여주어, 작업 특성에 따라 접근 방식을 선택하는 기준을 제시합니다.
결론: 단순함 속의 강력한 성능
LLM-MCTS는 로봇이 집안 환경에서 복잡한 태스크를 수행할 때, LLM의 상식과 탐색 알고리즘의 강점을 효과적으로 결합하는 혁신적인 방법입니다.
- 탐색 공간의 문제 해결: LLM이 제공하는 상식적 세계 모델이 탐색 범위를 효과적으로 제한합니다.
- 복잡 작업에서의 우수성: 직접적인 LLM 정책보다, 복잡하고 새로운 작업에서 더 나은 결과를 보입니다.
- MDL 원칙의 활용: 단순한 세계 모델이 복잡한 정책보다 일반화 능력이 뛰어날 수 있음을 보여줍니다.
이 연구는 자율 로봇뿐만 아니라, 다양한 대규모 태스크 플래닝 문제에서 LLM과 탐색 알고리즘의 결합이 어떻게 혁신을 가져올 수 있는지를 시사합니다.
LLM-MCTS:MonteCarloplanning with commonsense knowledge
이번 섹션에서는 복잡한 집안 환경에서의 객체 재배치(task planning) 문제를 해결하기 위해 제안된 LLM-MCTS 접근법을 소개합니다. 이 방법은 인간이 흔히 갖고 있는 상식(commonsense)을 기반으로, 대규모 영역의 태스크 플래닝 문제를 효과적으로 해결할 수 있는 혁신적인 전략입니다.
집안에서의 복잡한 태스크 플래닝 문제
-
문제 상황:
집안 로봇이 "과일을 냉장고에 넣어줘"라는 명령을 받으면, 과일이 위치할 가능성이 높은 장소(식탁, 부엌 카운터 등)를 고려해 탐색해야 합니다. 수백 개의 아이템과 장소가 존재하는 집안에서는 탐색 공간이 기하급수적으로 커지기 때문에, 효율적인 계획 수립이 매우 어려워집니다.
-
모델링:
이 문제는 부분 관측 마르코프 결정 과정(POMDP) 으로 모델링되며,
- 상태 (S): 로봇과 환경의 상태
- 행동 (A): 로봇이 취할 수 있는 행동들
- 관측 (\Omega): 환경의 부분적인 정보
- 전이 함수 (T), 보상 함수 (R), 할인 인자 (\gamma) 등으로 정의됩니다.
LLM-MCTS의 핵심 아이디어
1. LLM을 활용한 상식 기반 세계 모델 구축
- 초기 상태 추정:
- LLM의 상식 지식을 활용해 집안 내의 객체들(과일, 냉장고, 식탁 등)의 가능한 위치를 샘플링합니다.
- 데이터셋 (D)에 있는 객체들을 목록화하고, LLM에게 주어진 프롬프트를 통해 각 객체의 위치를 예측하게 합니다.
- 자연어에서 정형 데이터로:
- LLM의 자유형 응답을 문장-BERT로 임베딩하여, 미리 정의된 객체 이름과의 코사인 유사도를 통해 일관된 상태 표현으로 매핑합니다.
2. LLM을 활용한 휴리스틱 정책(Heuristic Policy)
- LLM의 정책 역할:
- 현재까지의 행동 히스토리와 목표, 관측 정보를 바탕으로, LLM이 다음에 취할 행동을 제안합니다.
- 여러 번 샘플링하여 얻은 결과를 코사인 유사도 기반으로 정량화하여, 허용 가능한 행동 공간에서 최적의 행동을 선택합니다.
- 정책의 특징:
- 단순히 LLM의 응답을 그대로 실행하는 대신, 이를 탐색 과정의 휴리스틱으로 활용하여 탐색 효율을 높입니다.
3. Monte Carlo Tree Search (MCTS)와의 결합
- 탐색 과정:
- MCTS는 LLM이 생성한 상식 기반 상태 신념(belief)에서 시작하여, 시뮬레이션을 통해 각 행동의 가치를 평가합니다.
- Q-값, 방문 횟수와 함께 LLM 휴리스틱 정책을 결합해, 최적의 행동 경로를 탐색합니다.
- 알고리즘 흐름:
- 상태 샘플링: LLM으로부터 생성된 초기 상태에서 각 객체의 위치를 샘플링.
- 시뮬레이션 진행: 선택된 상태에서 시뮬레이션을 진행하며, MCTS 트리 내의 노드를 확장.
- 행동 선택: Q-값과 LLM 휴리스틱을 활용해 최적의 행동을 결정.
- 보상 및 업데이트: 실행된 행동의 결과를 통해 누적 보상을 계산하고, 트리 내의 Q-값을 업데이트.
왜 LLM-MCTS일까?
-
대규모 탐색 공간 문제 극복:
LLM이 제공하는 상식 기반 세계 모델이 불필요한 영역을 미리 배제하고, 탐색 범위를 제한하여 효율적인 계획 수립을 가능하게 합니다.
-
복잡하고 부분 관측 환경에서의 강점:
집안처럼 수많은 객체와 장소가 있는 환경에서, 단순 LLM 정책(L-Policy)이나 순수한 모델 기반 접근(L-Model)만으로는 부족한 성능을 보일 때, 이 두 가지의 결합이 큰 시너지를 발휘합니다.
-
실제 적용 가능성:
객체 재배치, 식탁 세팅, 방 정리 등 일상적인 집안 작업에 적용할 수 있는 범용적 태스크 플래닝 방법으로, 로봇의 실질적 활용 가능성을 크게 높입니다.
Experiments
이번 섹션에서는 LLM-MCTS의 성능을 검증하기 위한 실험 환경과 주요 결과를 소개합니다. 전체 실험은 가정용 시뮬레이터인 VirtualHome에서 진행되었으며, 다양한 태스크 구성과 평가 설정을 통해 LLM-MCTS의 효율성과 일반화 능력을 분석했습니다.
1. 실험 환경 및 데이터
-
VirtualHome 시뮬레이터:
대규모 가정 환경을 재현하여 수백 개의 상호작용 아이템, 다양한 방, 부분 관측 환경, 그리고 방대한 액션 스페이스를 제공함으로써 현실적인 태스크 플래닝 문제를 평가할 수 있는 플랫폼입니다.
-
데이터셋 구성:
- 2000개의 태스크와 전문가 경로(총 10,000개 이상의 경로)를 생성하여, 다양한 상황(단순 태스크, 복합 태스크, Novel 태스크 등)을 포함하도록 하였습니다.
- 평가를 위해 800개의 태스크를 별도로 생성했으며, 일부 평가에서는 훈련 데이터 분포와 다르게 객체 배치가 이루어지는 Novel Apartment 환경도 사용하였습니다.
2. 평가 설정 및 Baseline 비교
-
평가 기준:
- 태스크는 30 스텝 이내에 완료되어야 하며, 일반적으로 15 스텝 내에 끝나는 경우가 많습니다.
- 태스크 성공 여부는 주어진 명령(예: “사과를 냉장고 안에 넣어줘”)에 따라, 해당 객체가 올바른 위치에 배치되었는지로 판단합니다.
-
Baseline 모델:
- UCT: 초기 상태를 균일 분포로 두고 계획 수행. 탐색 트리의 크기 문제로 전반적인 성능이 0%에 머뭇거림.
- Finetuned GPT2 Policy: 10,000개 이상의 전문가 경로로 fine-tuning한 GPT2 모델. 단순 태스크에서는 좋은 성능을 보이나, 복합 태스크에서는 누적 오류로 성능이 크게 떨어짐.
- GPT3.5 Policy: Few-shot 방식으로 GPT3.5를 사용해, 명령과 행동 이력을 기반으로 다음 행동을 예측. Novel 태스크에서 비교적 우수한 성능을 보임.
- GPT3.5-MCTS (Ours): LLM의 상식적 세계 모델과 휴리스틱 정책을 결합한 MCTS 접근법으로, 전체 평가에서 가장 높은 성공률을 기록하며 특히 unseen 상황 및 복합 태스크에서 두드러진 성능을 보였습니다.
3. 주요 결과
-
Seen 환경:
- 단순 태스크(Simple)에서 GPT3.5-MCTS는 약 91.4%의 성공률을 보였으며, 복합 태스크(Comp.) 및 Novel 태스크에서도 기존 Baseline 대비 우수한 성능을 나타냈습니다.
-
Unseen 환경:
- GPT3.5-MCTS는 새로운 환경과 구성에서 높은 일반화 능력을 입증하며, GPT3.5 Policy 및 Finetuned GPT2 Policy를 크게 능가하는 결과를 보여주었습니다.
4. Ablation Study
-
No Heuristic Policy:
- GPT3.5-MCTS에서 휴리스틱 가이드 없이 UCT만 사용한 경우, 탐색 효율이 현저히 떨어져 성공률이 0%에 가까웠습니다.
-
Uniform State Prior:
- LLM이 생성한 상식 기반 초기 상태 대신 균일한 분포를 사용하면, 잘못된 세계 모델로 인해 Q-값 추정이 부정확해져 성능이 크게 저하됨을 확인했습니다.
-
Fully Observable 환경:
- 완전 관측 환경에서의 결과는 약간의 성능 향상을 보였으나, LLM의 상식적 세계 모델만으로도 충분히 우수한 성능을 발휘함을 시사합니다.
5. 실패 분석
실패 원인은 주로 세 가지로 분류됩니다:
-
정책 오류:
- 비합리적 행동 선택, 예를 들어 관측되지 않은 객체를 대상으로 한 행동 또는 불필요한 반복 동작(예: “cutleryfork”와 같은 잘못된 참조)으로 탐색이 지연됨.
-
모델 오류:
- LLM이 예측한 객체 위치가 실제와 달라, 잘못된 Q-값 산출로 이어짐.
-
번역 오류:
- LLM의 자유형 자연어 응답을 실행 가능한 행동 혹은 객체 이름으로 변환하는 과정에서 오류가 발생하여, 정책이 의도한 행동이 제대로 실행되지 않는 경우가 있음.
결론
실험 결과, GPT3.5-MCTS는 복잡한 집안 환경에서의 태스크 플래닝 문제를 효과적으로 해결할 수 있는 강력한 접근법임이 입증되었습니다. 특히, LLM의 상식적 세계 모델과 휴리스틱 정책이 결합된 MCTS는 탐색 공간을 효과적으로 축소하고, 복합 및 unseen 태스크에서 높은 성공률을 보였습니다. 앞으로 이러한 접근법이 자율 로봇 및 다양한 응용 분야에서 더욱 확대 적용될 가능성이 높습니다.
LLM as a model or a policy?
이번 섹션에서는 LLM을 모델로 사용할지, 정책으로 사용할지에 관한 고민을 MDL(최소 설명 길이) 원칙을 바탕으로 분석한 내용을 살펴봅니다.
MDL 원칙과 선택 기준
-
MDL(최소 설명 길이) 원칙:
- 동일한 훈련 데이터를 잘 설명한다면, 더 짧은 설명(간결한 표현)을 가진 방법이 일반화 오류가 작다고 판단합니다.
- 즉, LLM을 모델로 사용할지(L-Model) 혹은 정책으로 사용할지(L-Policy)는 두 방식의 설명 길이를 비교해 결정할 수 있다는 것이 핵심입니다.
-
주의사항:
- 실제 데이터가 iid(독립 동일 분포)가 아닐 수 있다는 점, 그리고 LLM의 학습 손실을 정확히 알 수 없다는 한계가 있지만, 개념적 비교에는 유용한 통찰을 제공합니다.
사례 분석: 항공 여행 계획 vs. 객체 재배치
1. 항공 여행 계획 (Travel Planning)
-
L-Model 접근:
- 각 도시의 직항 정보를 담은 희소 그래프로 표현할 수 있으며, 인접 리스트 구조로 O(n·log n) 비트 정도의 간결한 설명이 가능합니다.
- 여기에 최단경로 알고리즘(예: 다익스트라 알고리즘)을 적용하면, 전체 표현의 크기는 상수에 가까워집니다.
-
L-Policy 접근:
- 각 도시 간의 최적 경로를 2차원 테이블로 표현하면, 테이블의 크기는 n²·log n 비트 정도로 훨씬 복잡해집니다.
-
실험 결과:
- GPT-3.5 기반의 LLM 모델 + 탐색(즉, L-Model 방식)이 LLM 정책(L-Policy)만 사용하는 방식보다 일관되게 더 좋은 경로 예측 성능을 보였습니다.
- 특히, 중간 규모 도시의 경우 설명 길이의 차이가 더 크게 나타나 성능 격차가 커졌습니다.
2. 객체 재배치 (Object Rearrangement)
-
L-Model 접근:
- 집안의 n개 이동 가능한 객체, m개의 컨테이너, k개의 방을 노드로 하고 “~안에 있다”와 같은 관계를 표현하는 희소 그래프로 모델링합니다.
- 전체 그래프 설명 길이는 O((m+n)·log(m+k)) 정도로 계산할 수 있으며, MCTS 탐색 알고리즘은 상수 크기로 표현됩니다.
-
L-Policy 접근:
- 객체와 컨테이너 간의 행동 시퀀스를 표현하는 경우, 각 정책은 O(m+k) 비트로 표현되며, 모든 가능한 객체-컨테이너 쌍에 대해 설명하면 O(mn·log(m+k)) 비트가 소요됩니다.
- 복합 태스크의 경우, 이 복잡도는 더욱 증가하여 학습과 일반화에 어려움을 줍니다.
-
분석 결론:
- MDL 원칙에 따르면, L-Model이 더 짧은 설명 길이를 가지므로, 일반화 오류가 적어야 합니다.
- 그러나 만약 L-Model에 적절한 탐색 알고리즘이 없다면, LLM 정책을 탐색 휴리스틱으로 활용하는 혼합 접근법이 효과적입니다.
3. 논의 및 적용 예시
-
LLM 모델 vs. 정책:
- LLM을 모델로 사용하는 경우:
- 항공 여행 계획처럼 문제의 구조가 희소하고 효율적인 알고리즘(최단경로 탐색 등)을 적용할 수 있을 때 유리합니다.
- LLM을 정책으로 사용하는 경우:
- 예를 들어, 도시 관광 일정 추천처럼, 짧은 설명(일정)이 전체 문제를 잘 대표할 수 있다면, 정책 방식이 더 적합할 수 있습니다.
-
결론:
- 실제 문제에 따라, LLM을 단독으로 모델이나 정책으로 사용하는 것보다 두 방식을 적절히 결합하여 상호 보완하는 것이 효과적입니다.
- 특히, 객체 재배치처럼 탐색 알고리즘이 필요한 경우에는, LLM이 제공하는 상식 기반 세계 모델과 정책 휴리스틱을 함께 활용하는 것이 최선의 선택일 수 있습니다.
Conclusion
핵심 성과
-
LLM과 MCTS의 결합:
- 상식 기반 세계 모델: LLM을 활용해 일상 태스크에 필요한 상식적 세계 모델을 구축했습니다.
- 휴리스틱 정책: MCTS 내에서 LLM의 휴리스틱 역할을 통해 상태와 행동을 편향 샘플링함으로써, 복잡한 태스크 플래닝 문제의 효율성을 크게 향상시켰습니다.
-
모델 기반 접근의 우수성:
- MDL(최소 설명 길이) 원칙에 따르면, 실제 도메인에서 세계 모델의 설명 길이가 정책보다 현저히 짧다면, LLM을 모델로 사용하는 방법이 일반화 오류가 적어 효과적입니다.
한계 및 향후 과제
-
런타임 성능:
- 현재 LLM-MCTS는 다수의 LLM 호출로 인해 실행 시간이 다소 길어지는 한계가 있습니다.
- 향후, Llama와 같은 더 작은 모델을 사용하거나, LLM의 지식을 소형 모델로 증류하는 방법 등으로 성능 개선이 기대됩니다.
-
윤리적 고려사항:
- LLM의 내재된 편향이 일부 도메인에서는 불공정하거나 위험한 결정을 유발할 수 있으므로, 공정성과 안전성에 대한 추가 연구가 필요합니다.
이 연구는 LLM과 탐색 알고리즘의 결합이 복잡한 일상 태스크의 의사결정을 효과적으로 지원할 수 있음을 보여주며, 향후 자율 로봇 등 다양한 응용 분야에서 중요한 역할을 할 것으로 기대됩니다.