시리즈

deep-reinforcement-learning

1.InstructGPT, ChatGPT

[번역] InstructGPT와 ChatGPT (OpenAI)

2023년 2월 1일

InstructGPT, ChatGPT의 근간을 이룬 Reinforcement Learning from Human Feedback

2023년 2월 2일

Deep Reinforcement Learning - 1강 요약정리

2023년 2월 6일

Deep Reinforcement Learning - 2강 Q-learning

2023년 2월 21일

Deep Reinforcement Learning - 3강 Deep Q-Learning

2023년 5월 22일

Deep Reinforcement Learning - 4강 Policy Gradient

2023년 5월 26일

Deep Reinforcement Learning - 5강 Unity ML-Agent

2023년 5월 28일

Deep Reinforcement Learning - 6강 Actor-Critic

2023년 6월 13일

Deep Reinforcement Learning - 7강 Multi-Agent Reinforcement Learning (MARL)

2023년 6월 15일

Deep Reinforcement Learning - 8강 Proximal Policy Optimization (PPO)

2023년 7월 25일

On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting, NeurIPS 2022

2023년 1월 26일