[RL] Online Feedback

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Online Feedback

  • 온라인 피드백은 에이전트가 환경과 실시간으로 상호작용하면서 즉시 받는 피드백

수식:

Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]Q(s_t, a_t) ← Q(s_t, a_t) + α[r_{t+1} + γ max_a Q(s_{t+1}, a) - Q(s_t, a_t)]

특징:

  • 에이전트가 행동을 취한 직후 즉시 보상/피드백을 받음
  • 환경과의 실시간 상호작용을 통해 학습
  • 탐색과 활용을 동시에 수행
  • 경험을 쌓으면서 정책을 지속적으로 업데이트

장점:

  • 최신 정보를 반영한 학습 가능
  • 환경 변화에 빠르게 적응
  • 효율적인 탐색 전략 개발 가능

단점:

  • 안전하지 않은 행동으로 인한 위험 (특히 실제 시스템에서)
  • 데이터 수집 비용이 높을 수 있음
  • 탐색 과정에서 성능이 불안정할 수 있음

예시:

  • 게임 AI (실시간 플레이)
  • 로봇 제어 (시뮬레이션)
  • 추천 시스템 (A/B 테스트)
profile
Everyday Research & Development

0개의 댓글