강화 학습에서 에이전트가 환경을 탐색할 때, 최적의 행동만을 선택하는 것이 아니라 가끔은 무작위로 행동을 선택해야 할 때가 있다. 이러한 탐험과 활용의 균형을 잡아주는 방법 중 하나가 바로 엡실론-그리디(Epsilon-Greedy)
정책이다.
알고리즘 기본 개념 - 탐험과 활용
- 탐험
- ϵ (엡실론) 확률
- 에이전트가 무작위로 행동을 선택
- 활용
- 1−ϵ 확률
- 현재까지 학습한
Q-table
에서 가장 높은 Q-value
를 가진 행동을 선택
동작 원리
- 탐험 단계:
- 확률 ϵ에 따라 무작위로 행동을 선택
- 에이전트는 이 단계에서 환경에 대한 새로운 정보를 얻을 수 있음
- 활용 단계:
- 확률 1−ϵ에 따라 현재까지 학습한 정책 중 최적의 행동을 선택
- 에이전트는 이 단계에서 현재까지 학습한 지식을 기반으로 최적의 행동을 취함
엡실론 값의 조정
- 학습 초기: ϵ 값을 높게 설정하여 탐험을 장려
- 학습 후기: ϵ 값을 점진적으로 감소시켜, 활용을 강화
- 이를
엡실론 감소(epsilon decay)
라고 함
엡실론 감소의 예시
학습 단계 | ϵ 값 |
---|
초기 | 0.9 |
중기 | 0.5 |
후기 | 0.1 |
장점
- 간단하고 효과적: 구현이 쉽고, 강화 학습 문제에서 좋은 성능을 보임
- 탐험과 활용의 균형: 에이전트가 환경을 충분히 탐험하면서도, 최적의 행동을 선택할 수 있도록 함
엡실론-그리디 정책은 Q-learning을 비롯한 다양한 강화 학습 알고리즘에서 널리 사용된다. 이 정책을 적절히 활용하면 에이전트가 환경을 효과적으로 탐색하고, 최적의 행동 정책을 학습할 수 있다.