discrete-tfxl-coma

About_work·2023년 11월 27일
0

강화학습

목록 보기
11/19

discrete-tfxl

기존 continuous SAC와 discrete SAC의 차이점

discrete_core.py

  • _get_values
  • get_actions_inference
  • get_actions_learning
  • get_actor_loss
  • get_return_estimate
  • get_temperature_loss

gru.py

  • MLPGaussianActor 대신, MLPDiscreteActor 을 씀
  • MLPCritic 대신, MLPDiscreteCritic 을 씀.

차이점을, 구현된 TransformerXL에 반영하기

DiscreteSACGRUCore <- DiscreteSACCore <- SACCore

  • DiscreteSACCore <- SACCore
    • 위 get으로 시작하는 6가지 함수의 차이.
  • DiscreteSACGRUCore <- DiscreteSACCore
    • MLPDiscreteActor / MLPDiscreteCritic 을 씀

SACGRUCore <- SACCore

  • MLPGaussianActor / MLPCritic 을 씀

DiscreteSACTFXLCore <- DiscreteSACCore <- SACCore

  • DiscreteSACCore <- SACCore
    • 위 get으로 시작하는 6가지 함수의 차이.
  • DiscreteSACTFXLCore <- DiscreteSACCore
    • TFXLEncoder / TransformerDiscreteActor(MLPDiscreteActor) / TransformerDiscreteCritic(MLPDiscreteCritic) 을 씀
    • get_actions_inference / get_actions_learning / get_q_value 에서
      • rl_token을 쓰면, 마지막 index만 input에 넣어줌

SACTFXLCore <- SACCore

  • TFXLEncoder / TransformerGaussianActor(MLPGaussianActor) / TransformerCritic(MLPCritic) 을 씀
  • get_actions_inference / get_actions_learning / get_q_value 에서
    • rl_token을 쓰면, 마지막 index만 input에 넣어줌

discrete-tfxl-COMA

COMA와 기존 discrete SAC와의 차이점 정리하기


profile
새로운 것이 들어오면 이미 있는 것과 충돌을 시도하라.

0개의 댓글