profile
지혜를 얻을 수 있는 나날들이 얼마 남지 않았음을 알게 하소서
post-thumbnail

Temporal Difference methods의 장점(Dynamic Programming, Monte Carlo 방식과의 비교)

TD-methods의 경우 행동가치함수 및 상태가치함수의 추정값을 여태 추정했던 값들에 기반해서 업데이트 하게 된다(bootstrapping을 통해 값을 업데이트). 이런 TD methods는 Dynamic Programming(DP) 혹은Monte Carlo(MC)와

2021년 8월 21일
·
0개의 댓글
·

[잡다한 python지식] zip, func(*iter)

여러개의 iterable한 객체를 받고, 그 중 가장 길이가 짧은 객체에 맞춰서 묶은 뒤 반환 해 주는 iterator를 반환함. 아래와 같이 unpacking이 가능어떤 함수에 튜플 / 리스트에 들어있는 모든 원소를 매개변수로 넘길때에는 \*을 붙여서 넘기면 된다\[

2021년 8월 10일
·
0개의 댓글
·

[백준1408] 24

1408

2021년 8월 7일
·
0개의 댓글
·

[백준5635] 생일

5635번vector나 pair선언 방법은vector<int> v(5), pair<int, int>vector sort시 compair함수는return a < b : 오름차순return a > b : 내림차순

2021년 8월 6일
·
0개의 댓글
·

ubuntu18.04에 realsense SDK설치하기

amazonaws의 repository를 등록하면 문제 생기니변경된 repository를 등록 후 사용할것!https://github.com/IntelRealSense/librealsense/blob/master/doc/distribution_linux.md

2021년 7월 25일
·
0개의 댓글
·
post-thumbnail

[cs7642] 할인율을 사용하는 이유는?

강화학습에서 할인율이란, 현재의 보상보다 미래에 받는 보상을 더 낮게 책정한다는 의미이다. 그리고 많은곳에서 미래의 보상이 더 낮게 책정되어야 하는 이유를(할인율을 사용해야 하는 이유를) 모호한 예시를 들며 설명하는 경우가 많아 혼란스러웠다 ex) 지금 100만원 받을

2021년 7월 25일
·
0개의 댓글
·

[cs7642] lesson 9.Generalization

lesson 9 generalization정리. RL에서 function approximation이 어떤 역할을 하는지, 위험성은 뭐가 있고, averager가 의미하는 바는 무엇인지

2021년 7월 19일
·
0개의 댓글
·