[강화학습] 엡실론-그리디 정책 (Epsilon-Greedy)

하는·2024년 3월 31일

0

ML

목록 보기

6/7

강화 학습에서 에이전트가 환경을 탐색할 때, 최적의 행동만을 선택하는 것이 아니라 가끔은 무작위로 행동을 선택해야 할 때가 있다. 이러한 탐험과 활용의 균형을 잡아주는 방법 중 하나가 바로 엡실론-그리디(Epsilon-Greedy) 정책이다.

알고리즘 기본 개념 - 탐험과 활용

탐험
- $\epsilon$ (엡실론) 확률
- 에이전트가 무작위로 행동을 선택
활용
- $1 - \epsilon$ 확률
- 현재까지 학습한 Q-table에서 가장 높은 Q-value를 가진 행동을 선택

동작 원리

탐험 단계:
- 확률 $\epsilon$ 에 따라 무작위로 행동을 선택
- 에이전트는 이 단계에서 환경에 대한 새로운 정보를 얻을 수 있음
활용 단계:
- 확률 $1 - \epsilon$ 에 따라 현재까지 학습한 정책 중 최적의 행동을 선택
- 에이전트는 이 단계에서 현재까지 학습한 지식을 기반으로 최적의 행동을 취함

엡실론 값의 조정

학습 초기: $\epsilon$ 값을 높게 설정하여 탐험을 장려
학습 후기: $\epsilon$ 값을 점진적으로 감소시켜, 활용을 강화
이를 엡실론 감소(epsilon decay)라고 함

엡실론 감소의 예시

학습 단계 $\epsilon$ 값
초기 0.9
중기 0.5
후기 0.1

장점

간단하고 효과적: 구현이 쉽고, 강화 학습 문제에서 좋은 성능을 보임
탐험과 활용의 균형: 에이전트가 환경을 충분히 탐험하면서도, 최적의 행동을 선택할 수 있도록 함

엡실론-그리디 정책은 Q-learning을 비롯한 다양한 강화 학습 알고리즘에서 널리 사용된다. 이 정책을 적절히 활용하면 에이전트가 환경을 효과적으로 탐색하고, 최적의 행동 정책을 학습할 수 있다.

천천히 꾸준히 취미처럼 냐미😋

이전 포스트

그리드 서치(Grid Search)

다음 포스트

[강화학습] Q-learning: 강화 학습의 기초 알고리즘

0개의 댓글