[2024.06.06] AGENTGYM: Evolving Large Language Model-based Agents across Diverse Environments
[2025.09.10] AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn RL
[GitHub] WooooDyy/AgentGym-RL

제안 배경
방법론

모듈 구성
AgentGym-RL은 extensible한 에이전트 학습 프레임워크로, 3개의 독립 모듈로 구성됨
환경 모듈
에이전트의 다양한 측면을 테스트하는 5개 시나리오를 제공
- WebArena: HTML 구조 및 사용자 인터페이스 이해가 필요한 웹 탐색
- DeepSearch: 정보 수집 및 합성 관련 검색 증강 생성
- TextCraft: 명확한 규칙과 목표가 있는 디지털 게임
- BabyAI: 공간 추론 및 계획이 필요한 grid-world 구현
- SciWorld: 복잡한 추론 및 도구 사용이 필요한 과학 실험 작업
- 위 5개 환경이 HTTP API 형태로 독립적 서비스로 작동하며 병렬 실행 및 확장을 가능하게 함
에이전트 모듈
- 에이전트 내 orchestrator 모듈
- 일반 ReAct와 다른건 planning과 reflection 메커니즘을 따로 지원한다는 것인듯
학습 모듈
- PPO, GRPO, RLOO, REINFORCE++ (PPO의 여러 기법을 포함한 REINFORCE) 등의 여러 알고리즘들을 포괄 지원하는 파이프라인
- Parallel environment 인스턴스에서, (1) trajectory batch 수집, (2) advantage 계산, (3) policy 업데이트를 수행
- 메모리 효율성을 보장하고 각 환경의 고유 task를 처리하는 엔지니어링 최적화 모듈? 기능?도 있다고 함
ScalingInter-RL: 점진적 탐색 범위 확장

이론적 배경
이름은 꽤 거창하지만 그냥 agent RL 버전의 curriculum learning임
- 이 학습 방법론은 학습 도중 interaction 최대 턴수를 점진적으로 증가시키며, long-term RL에서 exploration-exploitation 간 밸런스를 조정할 수 있게 만듬
- 에이전트가 학습 도중 능력이 진화함에 따라, interaction의 깊이도 같이 증가시켜 학습 깊이를 동기화한다는 것이 핵심
- 처음부터 넓게 학습하면 학습이 꽤나 불안정하게 진행된다고 함
- 흔히 말하는 horizontal extension이 이런 느낌이며, planning, reflection, correction 등의 행동이 여기서 확장 학습될 수 있다고
학습 단계
- 초기: 2-5턴 정도의 간단한 작업에서 시작해 기본적인 도구 활용 능력을 빠르게 숙달
- 후기: 턴 제한이 점차 증가하며 더 복잡한 작업들을 해결해나감
결과
종합 성능

- 모든 측면의 task에서 큰 성능 향상이 있었음
- 알고리즘은 GRPO가 가장 효과적
Horizontal Length

- ScalingInter-RL 없이 턴 제한을 5, 10턴으로 주는 경우
- 5턴으로 주면 잘 학습하다가 exploration이 필요한 때 부족한 성능으로 reward 상승폭이 급감함
- 10턴으로 주면 중반부에 너무 높은 분산(entropy)으로 인해 붕괴해버림
시사점