강화학습의 기본 용어
openai의 gymnasium 환경
강화학습의 기반이 되는 확통 정리
MDP는 강화학습의 환경을 구성하는데 중요한 역할을 하는 수학적 기반
Optimal Policy 를 위한 과정