월드모델에 비해 개선된 점
1. Value function (allowing farsighted behaviors)
2. Backpropagation
3. Emphasis on imagination
Dreamer란 모델은
과거 data로부터 World model을 학습한 이후
해당 모델에서 예측한 내용을 토대로
미래 reward를 예측하는 value network와
action을 선택하는 action network를 학습한다.
그러면 실제로 environment 와 interaction을 할 때는
actor network를 통해서 action을 predict하게 된다.
하지만, 많은 양의 환경 상호 작용이 필요하므로 실제 시나리오에 대한 유용성이 제한됩니다.
하지만 여전히 모델 기반 접근 방식은 여전히 비효율적이거나 계산 비용이 많이 드는 계획 메커니즘으로 인해 지연되어 어려운 작업을 해결하는 능력을 제한하고 있습니다.
오늘은 이미지에서 World Model을 학습하고 이를 사용하여 먼 미래를 내다보는 행동을 학습할 수 있는 RL 에이전트인 DeepMind와 우리 팀의 공동 작업인 Dreamer를 소개합니다.
세 가지 process 로 구성
월드모델 학습
과거 이미지와 action 데이터를 활용해서 reward를 예측하고 이미지 데이터를 재구성하는 과정에서 보다 latent한 compact model state 계산
Learning behavior in imagination
학습한 월드모델로 부터 미래 행동들을 예측하고 그것을 바탕으로 보다 long horizontal한 long sighted된 행동을 학습
이를 위해 먼저 예측한 미래의 각 상태에 대한 reward와 가치를 학습하고 그 이후 actor network 를 통해 backpropagation을 하면서 높은 reward와 가치를 줄 것으로 기대되는 최적의 action을 예측
Act in the environment 새로운 경험을 수집하기 위해 환경에서 학습된 행동 실행
실제 환경과 상호작용할 수 있는 action을 제안
이전에 개발된 모델 기반 에이전트
Dreamer은 세계 모델의 예측을 통해 역전파(backpropagation)를 통해 value network와 actor network를 학습함으로써 이러한 한계를 극복합니다.
Dreamer은 예측된 상태 시퀀스를 통해 보상의 기울기를 거꾸로 전파하여 성공적인 행동을 예측하기 위해 actor network를 효율적으로 학습합니다. 이는 model-free 접근 방식에서는 불가능합니다.
이를 통해 Dreamer는
1. 행동의 작은 변화가 미래에 예측되는 보상에 어떤 영향을 미치는지 알려주고
2. 보상을 가장 많이 증가시키는 방향으로 행위자 네트워크를 개선할 수 있습니다.
3. 예측 범위를 넘어서는 보상을 고려하기 위해 가치 네트워크는 각 모델 상태에 대한 미래 보상의 합계를 추정합니다.
4. 그런 다음 보상과 가치가 역전파되어 액터 네트워크를 개선하여 개선된 작업을 선택합니다.
Dreamer는 PlaNet 과 좀 다르다.
PlaNet
Dreamer vs PlaNet
Dreamer의 성능을
이전의 최고로 손꼽히는 model-based agent인 PlaNet의 성능, 인기 있는 model-free agent인 A3C 및 model-free RL의 여러 발전을 결합한 이 벤치마크인 D4PG의 현재 최고의 model-free agent와 비교
지속적인 행동과 이미지 입력을 통해 20개의 다양한 작업에 대한 표준 벤치마크에서 Dreamer를 평가했습니다.
- 작업에는 다양한 시뮬레이션 로봇의 이동뿐만 아니라 물체의 균형을 맞추고 잡는 것이 포함
- 이 작업은 RL 에이전트에게 충돌을 예측하기 어려운 문제, 희박한 보상, 혼돈 역학, 작지만 관련 있는 물체, 높은 자유도 및 3D 관점을 포함하여 다양한 과제를 제기하도록 설계됨
결과:
model based agent는 시뮬레이션 내 28시간에 해당하는 500만 프레임 미만에서 효율적으로 학습
model free agent는 더 천천히 학습하고 시뮬레이션 내 23일에 해당하는 1억 개의 프레임이 필요
20개 작업의 벤치마크에서 Dreamer는 786과 비교하여 평균 823점으로 최고의 모델 프리 에이전트(D4PG)를 능가
동시에 20배 적은 환경 상호 작용에서 학습
또한 거의 모든 작업에서 이전에 가장 우수했던 모델 기반 에이전트(PlaNet)의 최종 성능을 능가
Dreamer 교육을 위한 16시간의 계산 시간은 다른 방법에 필요한 24시간보다 적습니다.
4개 에이전트의 최종 성능은 다음과 같습니다
연속 제어 작업에 대한 주요 실험 외에도, 우리는 Dreamer의 일반성을 별개의 동작이 있는 작업에 적용하여 입증합니다. 이를 위해 반응적 행동과 장기적 행동, 공간 인식 및 시각적으로 더 다양한 장면에 대한 이해가 모두 필요한 아타리 게임과 딥마인드 랩 수준을 선택합니다. 결과적인 행동은 아래에 시각화되어 있으며, Dreamer는 이러한 더 어려운 작업을 효율적으로 해결하는 방법도 학습한다는 것을 보여줍니다:
출처