JAsmine_log
로그인
JAsmine_log
로그인
[RL] Online Feedback
JAsmine_log
·
2025년 8월 19일
팔로우
0
Reinforcement Learning(RL)
Online Feedback
온라인 피드백은 에이전트가 환경과
실시간
으로 상호작용하면서 즉시 받는 피드백
수식:
Q
(
s
t
,
a
t
)
←
Q
(
s
t
,
a
t
)
+
α
[
r
t
+
1
+
γ
m
a
x
a
Q
(
s
t
+
1
,
a
)
−
Q
(
s
t
,
a
t
)
]
Q(s_t, a_t) ← Q(s_t, a_t) + α[r_{t+1} + γ max_a Q(s_{t+1}, a) - Q(s_t, a_t)]
Q
(
s
t
,
a
t
)
←
Q
(
s
t
,
a
t
)
+
α
[
r
t
+
1
+
γ
m
a
x
a
Q
(
s
t
+
1
,
a
)
−
Q
(
s
t
,
a
t
)
]
특징:
에이전트가 행동을 취한 직후 즉시 보상/피드백을 받음
환경과의 실시간 상호작용을 통해 학습
탐색과 활용을 동시에 수행
경험을 쌓으면서 정책을 지속적으로 업데이트
장점:
최신 정보를 반영한 학습 가능
환경 변화에 빠르게 적응
효율적인 탐색 전략 개발 가능
단점:
안전하지 않은 행동으로 인한 위험 (특히 실제 시스템에서)
데이터 수집 비용이 높을 수 있음
탐색 과정에서 성능이 불안정할 수 있음
예시:
게임 AI (실시간 플레이)
로봇 제어 (시뮬레이션)
추천 시스템 (A/B 테스트)
JAsmine_log
Everyday Research & Development
팔로우
이전 포스트
[RL] AI alignment_PPO (Proximal Policy Optimization)
다음 포스트
[RL] Offline Feedback
0개의 댓글
댓글 작성