[RL] Online Feedback

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Online Feedback

온라인 피드백은 에이전트가 환경과 실시간으로 상호작용하면서 즉시 받는 피드백

수식:

Q(s_t, a_t) ← Q(s_t, a_t) + α[r_{t+1} + γ max_a Q(s_{t+1}, a) - Q(s_t, a_t)]

특징:

에이전트가 행동을 취한 직후 즉시 보상/피드백을 받음
환경과의 실시간 상호작용을 통해 학습
탐색과 활용을 동시에 수행
경험을 쌓으면서 정책을 지속적으로 업데이트

장점:

최신 정보를 반영한 학습 가능
환경 변화에 빠르게 적응
효율적인 탐색 전략 개발 가능

단점:

안전하지 않은 행동으로 인한 위험 (특히 실제 시스템에서)
데이터 수집 비용이 높을 수 있음
탐색 과정에서 성능이 불안정할 수 있음

예시:

게임 AI (실시간 플레이)
로봇 제어 (시뮬레이션)
추천 시스템 (A/B 테스트)

Everyday Research & Development

이전 포스트

[RL] AI alignment_PPO (Proximal Policy Optimization)

다음 포스트

[RL] Offline Feedback

0개의 댓글