[강화학습] 엡실론-그리디 정책 (Epsilon-Greedy)

하는·2024년 3월 31일
0

ML

목록 보기
6/7

강화 학습에서 에이전트가 환경을 탐색할 때, 최적의 행동만을 선택하는 것이 아니라 가끔은 무작위로 행동을 선택해야 할 때가 있다. 이러한 탐험과 활용의 균형을 잡아주는 방법 중 하나가 바로 엡실론-그리디(Epsilon-Greedy) 정책이다.

알고리즘 기본 개념 - 탐험과 활용

  • 탐험
    • ϵ\epsilon (엡실론) 확률
    • 에이전트가 무작위로 행동을 선택
  • 활용
    • 1ϵ1 - \epsilon 확률
    • 현재까지 학습한 Q-table에서 가장 높은 Q-value를 가진 행동을 선택

동작 원리

  1. 탐험 단계:
    • 확률 ϵ\epsilon에 따라 무작위로 행동을 선택
    • 에이전트는 이 단계에서 환경에 대한 새로운 정보를 얻을 수 있음
  2. 활용 단계:
    • 확률 1ϵ1 - \epsilon에 따라 현재까지 학습한 정책 중 최적의 행동을 선택
    • 에이전트는 이 단계에서 현재까지 학습한 지식을 기반으로 최적의 행동을 취함

엡실론 값의 조정

  • 학습 초기: ϵ\epsilon 값을 높게 설정하여 탐험을 장려
  • 학습 후기: ϵ\epsilon 값을 점진적으로 감소시켜, 활용을 강화
  • 이를 엡실론 감소(epsilon decay)라고 함

엡실론 감소의 예시

학습 단계ϵ\epsilon
초기0.9
중기0.5
후기0.1

장점

  • 간단하고 효과적: 구현이 쉽고, 강화 학습 문제에서 좋은 성능을 보임
  • 탐험과 활용의 균형: 에이전트가 환경을 충분히 탐험하면서도, 최적의 행동을 선택할 수 있도록 함

엡실론-그리디 정책은 Q-learning을 비롯한 다양한 강화 학습 알고리즘에서 널리 사용된다. 이 정책을 적절히 활용하면 에이전트가 환경을 효과적으로 탐색하고, 최적의 행동 정책을 학습할 수 있다.

profile
천천히 꾸준히 취미처럼 냐미😋

0개의 댓글