제한된 관찰 환경, 희소한 피드백, 높은 확률적 특성을 가진 환경에서도 적응할 수 있는 강화학습 에이전트를 구축하는 데 최적화모듈형 설계를 기반으로 다양한 기능을 조합하여 특정 환경과 목적에 최적화된 AI 에이전트를 개발할 수 있음위험 선호도와 제약조건을 반영| Pearl 기능 | 추천 시스템 | 경매 입찰 시스템 | 창의적 선택 |
|---|---|---|---|
| 정책 학습 | ✅ | ✅ | ✅ |
| 지능적 탐색 | ✅ | ✅ | ✅ |
| 안전성 | ✅ | ||
| 이력 요약 | ✅ | ||
| Replay Buffer | ✅ | ✅ | ✅ |
| Contextual Bandit | ✅ | ||
| 오프라인 강화학습 | ✅ | ✅ | |
| 동적 액션 공간 | ✅ | ✅ |