JAsmine_log
로그인
JAsmine_log
로그인
[RL] Offline Feedback
JAsmine_log
·
2025년 8월 19일
팔로우
0
Reinforcement Learning(RL)
Offline Feedback
오프라인 피드백은 미리 수집된 고정된 데이터셋을 사용하여 학습하는 방식
수식:
m
a
x
π
E
(
s
,
a
)
D
[
Q
π
(
s
,
a
)
]
−
λ
⋅
D
K
L
(
π
(
⋅
∣
s
)
∣
∣
π
β
(
⋅
∣
s
)
)
max_π E_{(s,a)~D}[Q^π(s,a)] - λ·D_KL(π(·|s) || π_β(·|s))
m
a
x
π
E
(
s
,
a
)
D
[
Q
π
(
s
,
a
)
]
−
λ
⋅
D
K
L
(
π
(
⋅
∣
s
)
∣
∣
π
β
(
⋅
∣
s
)
)
특징:
사전에 수집된 데이터셋을 사용
환경과의 실시간 상호작용 없이 학습
배치 학습 방식으로 진행
정적인 데이터를 기반으로 정책 학습
장점:
안전한 학습 환경 (위험한 행동 방지)
비용 효율적 (데이터 재사용 가능)
재현 가능한 실험 환경
대용량 데이터 활용 가능
단점:
데이터셋의 품질과 다양성에 의존
분포 변화(distribution shift) 문제
새로운 환경이나 상황에 대한 일반화 한계
탐색이 제한적
예시:
의료 진단 (과거 기록)
자율주행 (수집된 데이터)
금융 거래 (역사적 데이터)
JAsmine_log
Everyday Research & Development
팔로우
이전 포스트
[RL] Online Feedback
다음 포스트
[RL] 기본 개념(MDP, Policy, Value functions, Bellman Equations)
0개의 댓글
댓글 작성