Decision Transformer: Reinforcement Learning via Sequence Modeling

ingeol·2024년 1월 27일

0

논문리뷰

목록 보기

28/63

한줄요약: sequential 한 강화학습에서 casual transformer 모델을 적용함

요약: 기존 강화학습에서 transformer 적용하기 힘들다는 점이 있었다. 이를 r, s, a 순서로 tranformer에 주입하고 동시에 들어간 timestep에 같은 PE를 부여하면서 action을 예측하도록 학습을 진행 이때 사용하는 방식이 imitation learning을 사용 (정답을 바로 주고 action을 학습하도록) 기존 강화학습에서는 보상을 최대화하는 방식으로 action을 학습시키다 보니 transformer 적용이 힘들엇다.

문제: 기존 강화학습에서 transformer 적용하기 힘들다는 점

해결: imitation learning + PE, action prediction

novelty:

RL의 계속적인 문제는 conditional sequence modeling을 해야한다는 것이다.

이전 방식들은 value function을 학습시키고 policy gradient를 적용시켰지만 해당 방식에서는 Decision transforemr에서 causally masked transofrmer를 사용해 해당 문제를 해결하고자 시도.

Introduction

data. collective 한 후 학습시킴(sampling) 장점 → bootstrapping 안함

deadly triad: credit assignment로 인해 단기에 잘못된 행동을 선택하게되는 문제 → 매우 불안적적 요소로 작용

모델 파라미터를 크게 함으로써 안정적 학습 가능할 것으로 기대

error propagation: value overestimation: 초기에 잘못된 action으로 인해 subsequent decision에 영향을 미치게 되는 것

value overestimatioion: 특정 state와 action에 과적합되는 현상

Method

기존 트랜스포머와는 다르게 s,a,r 에 같은 position embedding을 준다.

action을 예측하게 해서 MSE loss를 흘려준다.

limitation: state, return은 예측방식 찾지 못했다고 한다.

해당 방식에서 env 로 부터 나오는 action을 바탕으로 loss 흘려줌 (imitation learning)

이전 포스트

DayDreamer: World Models for Physical Robot Learning

다음 포스트

Active Retrieval Augmented Generation

0개의 댓글

관련 채용 정보

씨제이올리브영(CJ올리브영)

프론트엔드 개발자 (커머스서비스)

올리브영은 헬스&뷰티 스토어로 옴니채널 혁신을 이끄는 글로벌 라이프스타일 플랫폼입니다. JavaScript와 React를 활용한 프론트엔드 개발 프로젝트로 고객 경험을 개선하며, 독보적인 오프라인 비즈니스와 온라인 결합한 플랫폼을 함께 만들어갈 인재를 기다립니다.

휴먼스케이프

[마미톡] Frontend Engineer

임신, 출산, 육아 국민앱 '마미톡'을 운영하는 휴먼스케이프에서 프론트엔드 엔지니어를 모집합니다. 다양한 기술을 활용해 사용자 경험을 개선하며, 유기농 문화 속에서 자율적으로 성장할 수 있는 기회를 제공합니다.

스테이션3(다방)

[플랫폼개발실] Back-end 개발자

부동산 정보 플랫폼 ‘다방’을 운영하는 스테이션3에서 Back-end 개발자를 모십니다. Spring Boot 기반 REST API 개발 등 유연한 소통 속에서 주도적으로 업무를 수행하며, 2030세대의 신뢰 높은 정보를 제공합니다.