
| 구분 | 설명 |
|---|---|
| Model-Free | 모델 없이 경험으로 가치/정책 학습 |
| Model-Based | 모델을 학습하고 그 모델을 기반으로 계획 수립 |
| Integrated | 모델도 학습하고, 그로부터 샘플링해서 가치/정책도 학습 (Dyna 구조) |
입력:
출력:
방법:
| 모델 종류 | 설명 |
|---|---|
| Table Lookup | 경험을 기반으로 표 생성 |
| Linear/Gaussian | 상태-행동을 선형/정규 분포로 근사 |
| Deep Models | 딥러닝 기반의 모델 (ex. Deep Belief Network) |
| 종류 | 설명 |
|---|---|
| Model-Free | 실제 경험만 학습 |
| Model-Based | 실제 경험으로 모델을 학습 → 모델을 사용해 계획 |
| Dyna | 실제 경험으로 모델 + 가치 함수 동시 학습 + 시뮬레이션도 사용 |
For each real step:
- Update Q with real experience
- Update model with real experience
- Repeat K times:
- Sample (s, a) from past
- Simulate r, s' using model
- Update Q with (s, a, r, s')
For each a ∈ A:
- Run K simulations: (s_t, a, r, s', ...)
- Evaluate Q(s_t, a) = mean(G)
Choose a with highest Q
시뮬레이션을 통해 트리 구성
In-tree vs. Out-of-tree 구분:
| 구성 | 설명 |
|---|---|
| Search Tree | 시뮬레이션으로 생성된 트리 |
| Evaluation | Q(s,a)는 방문한 에피소드 평균 Return |
| Tree Policy | 탐색에 사용되는 정책 (ε-greedy 등) |
| Default Policy | 시뮬레이션에 사용되는 정책 (랜덤 등) |
MC 대신 TD 학습을 시뮬레이션에 적용
Q(s, a) ← Q(s, a) + α [r + γ Q(s', a') - Q(s, a)]
| 기억 종류 | 설명 |
|---|---|
| Long-Term Memory | 실제 경험 기반 TD 학습 |
| Short-Term Memory | 시뮬레이션 경험 기반 TD Search |
| 전체 가치 함수 | LTM + STM의 합으로 구성 |
| 주제 | 설명 |
|---|---|
| 모델 기반 학습 | MDP 모델 을 학습 후 계획 수행 |
| 샘플 기반 계획 | 모델로부터 샘플 생성 후 RL 알고리즘 적용 |
| Dyna | 모델 학습 + 샘플 생성 + 가치 함수 업데이트 통합 |
| MCTS | 시뮬레이션 기반 탐색, 고차원 환경에 적합 |
| TD Search | 부트스트래핑 기반 효율적인 탐색 및 학습 |
| Dyna-2 | LTM + STM 통합으로 지역/전역 정보 활용 |