https://deepmind.com/learning-resources/reinforcement-learning-series-2021
구글 딥마인드팀이 강화학습에 대한 강의 해줍니다.
유튜브에 강의가 무료로 올라와 있습니다.
퀄리티는 아직 다 못봐서 뭐라고 못하는데
믿고 한번 들을만 할 거 같네요.
업데이트: 구글 딥러닝 강의를 추천 하지 않는다. 이유는 강의에서 수학적 식만 나열하고 수학적 도출을 설명 하지 않는다. 파워포인트에 나오는 개념 그림 설명도 말로만 하고 직접 마우스로 가리키거나 추가적인 설명이 없다. 말로만 하여, 리뷰 할 때는 좋지만, 처음 개념을 쌓을 때는 이해 할 수 없다.
쉬운 풀이로 개념을 이해하게 되면 수학 공식 유도나 뒷부분 내용의 이해가 빨라진다. 꼭 먼저 보길 바란다.
인공지능에 대해 podcaster Lex Fridman의 강의이다. 매우 쉽지만 다른 강의에서 놓칠 수 있는 잊지 말아야 할 중요한 핵심 내용을 알려준다. 윤리, RL의 쓰임세 그러나 쓰지 않는 자율주행 회사들, multi-verse simulation 등등 심지어 어떻게 공부해야 하며 연구해야 갈 지도 알려준다.
그러나 큰 픽쳐 설명을 잘되어 있는데 자세한 설명은 부족하다.
ps.
https://deeplearning.mit.edu/
간단히 강화학습에 대한 overview 듣기 좋다.
특히, https://youtu.be/lvoHnicueoE?t=1221 이부분이 좋다. 가장 중요한 포인트를 알려준다. 일반적인 deep learning을 input으로 쓰고 cost function (decision)을 강화학습에 쓰는 것. 반대로 말하면 일반적인 deep learning 알고리즘으로는 주가 예측에 쓸 수 없다는 것.
16강의 뒷부분 부터~
추천 하는 이유는 Andrew Ng이 공식을 설명 할 때 항상 "let explain the intuition behind this" 하여 조금 더 와닿고 표기에 오류가 없어서 혼동이 없음. 또한 공식 설명후 항상 심플한 예제로 이해를 도와줌
공식 설명/유도 잘되어 있음.
추천에서 비추천으로 바뀐 이유는 reward를 reword로 잘못 표기 한다던지 s1 = s', s0 = s 인데 s' 쓸 때 s1을 다시 쓴다 던지 하여 더 헷갈리게 함. 또한 공식에 대한 설명이 제대로 되지 않음. 리뷰 하고는 이해가 가는데 설명 그대로는 짧게 설명 되어 있어 이해 불가.
그리고 결정적으로 코드 중심이라서, 개념 습득하기에는 다소 모호한 설명이 문제가 된다. exploration and exploitation을 해당 책은 이렇게 설명한다. "...학습 초기에 정책을 탐욕적으로 결정하게 되면 에이전트가 다양한 방식으로 학습하지 못하는 결과를 초래한다. 왜냐하면 학습 초기에 설정된 정책은 미성숙하기 때문이다." -p128- 가 끝이다. Andrew Ng 처럼 그림으로 설명 했다면 독자가 훨씬 이해가 빨랐을 것 이다.
그러나 만약 원문을 보면서 큰 그림이 이해가 안될 때, 이 책은 필 수 이다. 하지만 역시 이 책 자체는 리뷰 할 때만 쓸 수 있고 이 책만으로 이해 할 수 없다.
다시 추천으로 바뀐 이유는 어느 정도 공부 하니, 필자가 왜 어떤 부분의 공식의 유도를 무시했는지 알겠다. 그러나 중요한 부분은 또 자세히 설명하였다.