[RL] Offline Feedback

JAsmine_log·2025년 8월 19일

Reinforcement Learning(RL)

Offline Feedback

  • 오프라인 피드백은 미리 수집된 고정된 데이터셋을 사용하여 학습하는 방식

수식:

maxπE(s,a) D[Qπ(s,a)]λDKL(π(s)πβ(s))max_π E_{(s,a)~D}[Q^π(s,a)] - λ·D_KL(π(·|s) || π_β(·|s))

특징:

  • 사전에 수집된 데이터셋을 사용
  • 환경과의 실시간 상호작용 없이 학습
  • 배치 학습 방식으로 진행
  • 정적인 데이터를 기반으로 정책 학습

장점:

  • 안전한 학습 환경 (위험한 행동 방지)
  • 비용 효율적 (데이터 재사용 가능)
  • 재현 가능한 실험 환경
  • 대용량 데이터 활용 가능

단점:

  • 데이터셋의 품질과 다양성에 의존
  • 분포 변화(distribution shift) 문제
  • 새로운 환경이나 상황에 대한 일반화 한계
  • 탐색이 제한적

예시:

  • 의료 진단 (과거 기록)
  • 자율주행 (수집된 데이터)
  • 금융 거래 (역사적 데이터)
profile
Everyday Research & Development

0개의 댓글