TD-methods의 경우 행동가치함수 및 상태가치함수의 추정값을 여태 추정했던 값들에 기반해서 업데이트 하게 된다(bootstrapping을 통해 값을 업데이트). 이런 TD methods는 Dynamic Programming(DP) 혹은Monte Carlo(MC)와
여러개의 iterable한 객체를 받고, 그 중 가장 길이가 짧은 객체에 맞춰서 묶은 뒤 반환 해 주는 iterator를 반환함. 아래와 같이 unpacking이 가능어떤 함수에 튜플 / 리스트에 들어있는 모든 원소를 매개변수로 넘길때에는 \*을 붙여서 넘기면 된다\[
5635번vector나 pair선언 방법은vector<int> v(5), pair<int, int>vector sort시 compair함수는return a < b : 오름차순return a > b : 내림차순
amazonaws의 repository를 등록하면 문제 생기니변경된 repository를 등록 후 사용할것!https://github.com/IntelRealSense/librealsense/blob/master/doc/distribution_linux.md
강화학습에서 할인율이란, 현재의 보상보다 미래에 받는 보상을 더 낮게 책정한다는 의미이다. 그리고 많은곳에서 미래의 보상이 더 낮게 책정되어야 하는 이유를(할인율을 사용해야 하는 이유를) 모호한 예시를 들며 설명하는 경우가 많아 혼란스러웠다 ex) 지금 100만원 받을
lesson 9 generalization정리. RL에서 function approximation이 어떤 역할을 하는지, 위험성은 뭐가 있고, averager가 의미하는 바는 무엇인지