[RL] Offline Feedback

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Offline Feedback

오프라인 피드백은 미리 수집된 고정된 데이터셋을 사용하여 학습하는 방식

수식:

max_π E_{(s,a)~D}[Q^π(s,a)] - λ·D_KL(π(·|s) || π_β(·|s))

특징:

사전에 수집된 데이터셋을 사용
환경과의 실시간 상호작용 없이 학습
배치 학습 방식으로 진행
정적인 데이터를 기반으로 정책 학습

장점:

안전한 학습 환경 (위험한 행동 방지)
비용 효율적 (데이터 재사용 가능)
재현 가능한 실험 환경
대용량 데이터 활용 가능

단점:

데이터셋의 품질과 다양성에 의존
분포 변화(distribution shift) 문제
새로운 환경이나 상황에 대한 일반화 한계
탐색이 제한적

예시:

의료 진단 (과거 기록)
자율주행 (수집된 데이터)
금융 거래 (역사적 데이터)

Everyday Research & Development

이전 포스트

[RL] Online Feedback

다음 포스트

[RL] 기본 개념(MDP, Policy, Value functions, Bellman Equations)

0개의 댓글