
| 게임 | AI 수준 | 프로그램 |
|---|---|---|
| 체커 | 완벽 | Chinook |
| 체스 | 초인간 | Deep Blue |
| 오델로 | 초인간 | Logistello |
| 백개먼 | 초인간 | TD-Gammon |
| 스크래블 | 초인간 | Maven |
| 바둑 | 그랜드마스터 | MoGo, Crazy Stone |
| 포커 | 초인간 | Polaris, SmooCT |
TD-Gammon, Logistello, SmooCT 등은 모두 강화학습 기반 프로그램이다.
| 게임 종류 | 예시 | 특성 |
|---|---|---|
| 완전정보 | 체스, 바둑, 오델로 | 상태 완전 관측 |
| 불완전정보 | 포커, 스크래블 | 부분 관측, 정보 은닉 |
이번 강의에서는 먼저 완전정보 게임을 집중적으로 다룬다.
| 방식 | 업데이트 수식 |
|---|---|
| MC | |
| TD(0) | |
| TD(λ) | λ-return 기반 업데이트 |
→ min/max로 행동 선택 가능
| 이름 | 설명 |
|---|---|
| TD | v(s) ← v(s′) |
| TD Root | v(s) ← minimax value of s′ |
| TD Leaf | v(s) ← minimax leaf value |
| TreeStrap | 모든 노드에서 minimax backup |
| 프로그램 | 방법 | 성과 |
|---|---|---|
| KnightCap (체스) | TD Leaf | 마스터급 성능 |
| Chinook (체커) | TD Leaf | 자가학습으로 성능 향상 |
| Meep (체스) | TreeStrap | 국제 마스터 상대 13/15 승 |
| 방법 | 설명 |
|---|---|
| CFR | Counterfactual Regret Minimization (정해진 트리 탐색) |
| Smooth UCT | MCTS 변형, 평균 정책 기반 학습 |
| Bayesian MDP | 정보 상태 기반 샘플링 |
상태에서 두 정책 사용:
Nash 수렴 가능
MCTS보다 안정적 (포커에서 divergence 방지)
| 게임 | 입력 | 가치 함수 | 학습 | 탐색 |
|---|---|---|---|---|
| 체스 | 피스 벡터 | Binary Linear | TreeStrap | αβ Search |
| 오델로 | 디스크 배열 | Binary Linear | MC | αβ |
| 백개먼 | 체커 수 | Neural Network | TD(λ) | MC Search |
| 스크래블 | 랙 문자 | Binary Linear | MC | MC Search |
| 포커 | 카드 추상화 | Binary Linear | MCTS | 없음 |