환경으로부터 보상을 받는! 그 보상을 가지고, 학습을 가는 것! 결국, 상황에 적합한 행동을 찾기까지는 수많은 행동이 필요하다.가정하고 있는 상황은, 1\. 학습 주체는 환경에 대해 모름 2\. 시행착오가 필요3\. 현재의 행동이 미래의 순차적인 보상에 영향을 준다
매번 동일한 돈이 나오지는 않음. 어떤 기계는 더 많은 보상금을, 어떤 머신은 평균적으로 나오는! 우리는, 도박장에서 도박에 대한 정보가 정말 아무것도 없다.이때 어느 밴딩머신을 땡길 것인지는 우리에게 달려있다.우리가 하게 될 것은?랜덤하게 시도하여 탐색을 한다. ex
reward signal 정답이 알려주는 사람 없이, 에이전트가 리워드 신호만 받으면서 좋은 방법론을 찾아가는 것 ! ! ! !supervisor가 없이 ! ! ! == 자기주도학습 잘 하는 학생 feedback is delayed supervised learning에
MDP는 일종의 environment를 표현하는 방법! 대부분의 모든 RL problem은 MDP로 표현할 수 있다고 한다. 일단 MarKoV 특성예전의 것들은 현재랑 관계가 없다. state만 필요할 뿐, 이전 history는 필요가 없다.State Transiti
LLM agent 연구에 언젠간 활용하고 싶어서 열심히, 노력하고 있지만 쉽지는 않다. 저번주 스터디에 스터디원분이 구현을 하셔서 오신걸 보고! 깜짝~놀라버려성나도 한번 구현을 해봐야겠다고 생각했다! ! ! ! ! ! ! 그분이 공부하신 방법대로 한번 따라해봤다. (1
결국 중요한 건, 어떻게 저렇게 0.9뒤에 곱해지는 애들이 어떻게 달라지는지이다.
prediction 인풋 : MDP와 Policy output : value function ! control 인풋 : MDP output : optimal value function과 optimal policy  그리고 저번까지는 계속해서 그냥 ppt에 나와있는 기본코드를 구현하는 것에 그쳤는데, 여기 나와있는 그 미로 탐험이 개인적으로 재미
Therefore, applying RL algorithms with high sample complexity to real-world tasks is difficult, where trial-and-error can be extremely expensive.→ RL알고리