최근 대학원을 준비하면서 관련된 내용을 조사하다보니 관련된 논문을 읽는 것이 굉장히 중요하다고 느꼈다. 관심이 가는 연구실의 논문을 주로 읽었는데 읽으면서도 이해가 안되는 용어들도 많고 그런 용어를 알기 위해서는 또 다른 논문을 읽어야 했다. 그래서 하루에 1개씩이라도
논문 소개 > 이 논문은 2018년에 나온 논문으로, 내가 관심있는 강화학습과 게임 AI에 대해 접하기 쉬운 느낌이 있어서 처음 논문으로 이것을 골랐다. 논문 요약 논문 개요 논문 제목: Deep Reinforcement Learning for General V
0. 개요 이 논문은 DQN에 관한 논문이다. 여러 논문을 읽어보려고 하다가 든 생각이 내가 강화학습을 공부하고 있는데 강화학습의 방법론에 대한 논문들을 아직 읽어보지 않았다는 것이다. 기초도 보지 않고 다른 것을 보려고 했던 것이다. 그래서 DQN부터 A3C, P
0. 개요 이 논문은 A3C에 관한 논문이다. DQN과 마찬가지로 이 논문 역시 유튜브 팡요랩의 영상을 참고하였다. 영상링크 팡요랩 1. 논문 요약 1.1. 논문 개요 논문 제목: Human-level control through deep reinforc
0. 논문 소개 이 논문은 2020년에 나온 논문으로, AlphaGo와 AlphaZero의 후속 연구로 진행한 내용이다. 지피티의 추천을 받았다. 보는 논문마다 실버 교수님이 계신 것 같은 느낌이다. 역시 강화학습 분야에서 유명하신 것 같다. 1. 논문 요약 1.1.
이 논문은 유명한 알고리즘인 PPO가 처음 나온 논문이다. 이 논문 역시 유튜브 팡요랩을 참고하였으며 원래는 TRPO의 논문이 먼저 영상으로 나왔지만 조금 더 어려울 것 같다는 생각에 PPO를 먼저 읽었다.이 논문은 강화학습 분야에서의 2 TOP으로 불리는 딥마인드와
전 글에서 작성한 PPO의 기반이 된 TRPO 논문이다. 마찬가지로 유튜브 팡요랩을 참고했고 다른 논문 리뷰들은 40분인데 비해 TRPO는 1시간 20분으로 2배정도 길다. 그만큼 어려울 것이라고 생각하고 영상과 논문을 읽었다.이론이 위주가 되는 논문이라 수식이 참 많
Muzero 논문을 읽을 때 끝부분에 성능비교를 하는데 그동안 보지 못했던 알고리즘들이 등장을 했다. Rainbow는 다른 논문에서 봐서 알고 있었는데 IMPALA라는 것은 처음 보았다. 그래서 다음에 읽을 논문으로 이 IMPALA로 결정했다. 참고로 이번 논문인 De
0. 개요 이번에 읽을 것은 rainbow dqn이다. 앞에 읽었던 IMPALA와 마찬가지로 이것도 Muzero논문을 읽을 때 성능 비교를 위해 나왔던 알고리즘이다. 지금 와서 보니까 다들 DeepMind의 논문이라 서로 이용해서 비교를 해본 것 같다. 오늘도 어김없
0. 개요 오늘 읽을 것은 줄여서 SAC라고 부르는 알고리즘이다. 이것도 강화학습 논문들을 볼 때 비교대상으로 있었던 적이 많았던거 같아서 오늘 읽을 논문으로 설정했다. 1. 논문 요약 1.1. 논문 개요 논문 제목: Soft Actor-Critic Alg
오늘 읽을 것은 최근 화제가 되는 Large Language Model(LLM)을 사용하는 논문이다. 강화학습 논문도 좋지만 그래도 LLM 관련 논문을 읽어보고 싶었기에 이번에 이걸로 골랐다. 동적인 NPC를 만들어보고 싶다는 생각이 있기 때문에 LLM과 관련된 논문을
오늘 읽을 것은 강화학습과 LLM을 결합한 논문이다. 둘의 비중을 따지자면 강화학습쪽이 더 큰 것 같다고 생각이 들지만 그래도 둘 다 활용하여 유명한 게임인 마인크래프트에서 효과를 낸 논문이다. 실제 프로토타입도 깃허브에 있으니까 나중에 한 번 봐야겠다.논문 제목: M