강화학습

kolinee·2024년 6월 13일

딥러닝분석

목록 보기

4/4

강화학습

실수와 보상을 통해 배우는 알고리즘
신경망이 정답과 예측사이의 오차를 역전파해서 의미있는 가중치와 편향을 학습하는 것처럼 강화학습은 좋은 선택과 나쁜 선택에서 모두 배움
문제가 주어진 환경이 있고 강화학습 문제를 풀기 위한 에이전트 존재
에이전트는 행동으로 환경에 영향을 주고 그 결과에 따라서 보상받음
좋은 보상 받을 수록 그 행동을 많이함
eX) 딥러닝 네트워크 구조파악:nasnet
최적파라미터찾기:autoML

OpenAiGym: 강화학습의 이론을 학습하기위해 만들어진 IOpenAI 환경
Mountaincarv0: 두 바퀴가 달린 차로 언덕을 올라가는 문제

보상은 각 시간단위마다 -1, 오른쪽깃발도달시 하나 episode끝남
episode 빨리 끝낼수록 보상크기 큼 200 스텝안에 도달해야함
행동공간: 에이전트가 취할 수 있는 행동의 여러 경우

-상태와 행동을 분류신경망의 입력과 출력으로 사용해볼 수 있음

어떤 관찰 상태에서 어떤 행동을 해야하는 지 학습

Q러닝

강화학습의 대표적인 방법론
[회귀]
행동공간이 이산적이지 않고 연속적인 mountaincarcontuinuous v0 만들기
랜덤행동 에이전트
- 관찰공간은 같지만 행동공간을 -1-1이라 훨 좋아짐
- 최대 시간 단위는 999
- 최대 스텝을 200으로 제한했을 때, step은 200으로 나오지만, score는 -6.56나옴
- 각 스텝마다 얻는 보상은 행동의 제곱에 -0.1이며 깃발에 도달하면 +100
  -큰 힘으로 움직이면 음의보상을 더 많이 받아 까다로움
회귀모델 =성능 별로

회귀 신경망 대신 큐러닝으로 문제를 풀어볼 수 있음

Q러닝이란
1. 관찰상태에서 취할 수 있는 모든 행동의 Q값을 학습하는 방법
2. 특정 상태에서 높은 Q값 우선적 선택
3. 가장 높은 Q값을 가진 행동을 선택할 수도 있고,소프트맥스 함수로 각 Q값을 입력으로 삼아 확률 기반 행동을 할 수도있다
  = Q테이블 학습
- 큐테이블은 이산적으로 관찰공간과 행동공간을 격좌화 시켜야 한다
- 관찰공간(2)+ 행동공간(1)=3차워내
  obs_to_state:관찰 상태를 큐테이블의 각 격자에 배당
  softmax() 함수로 Q값을 확률로 바꿔서 행동선택
1. ㄱ

잘해지는 그날까지 그 일기..

이전 포스트

오토인코더

0개의 댓글