강화학습

kolinee·2024년 6월 13일

딥러닝분석

목록 보기
4/4

강화학습

  • 실수와 보상을 통해 배우는 알고리즘
  • 신경망이 정답과 예측사이의 오차를 역전파해서 의미있는 가중치와 편향을 학습하는 것처럼 강화학습은 좋은 선택과 나쁜 선택에서 모두 배움
  • 문제가 주어진 환경이 있고 강화학습 문제를 풀기 위한 에이전트 존재
  • 에이전트는 행동으로 환경에 영향을 주고 그 결과에 따라서 보상받음
  • 좋은 보상 받을 수록 그 행동을 많이함
    eX) 딥러닝 네트워크 구조파악:nasnet
    최적파라미터찾기:autoML

OpenAiGym: 강화학습의 이론을 학습하기위해 만들어진 IOpenAI 환경
Mountaincarv0: 두 바퀴가 달린 차로 언덕을 올라가는 문제

  • 보상은 각 시간단위마다 -1, 오른쪽깃발도달시 하나 episode끝남
  • episode 빨리 끝낼수록 보상크기 큼 200 스텝안에 도달해야함
  • 행동공간: 에이전트가 취할 수 있는 행동의 여러 경우

-상태와 행동을 분류신경망의 입력과 출력으로 사용해볼 수 있음

  • 어떤 관찰 상태에서 어떤 행동을 해야하는 지 학습

    Q러닝

    강화학습의 대표적인 방법론
    [회귀]

  • 행동공간이 이산적이지 않고 연속적인 mountaincarcontuinuous v0 만들기
    랜덤행동 에이전트

    • 관찰공간은 같지만 행동공간을 -1-1이라 훨 좋아짐
    • 최대 시간 단위는 999
    • 최대 스텝을 200으로 제한했을 때, step은 200으로 나오지만, score는 -6.56나옴
    • 각 스텝마다 얻는 보상은 행동의 제곱에 -0.1이며 깃발에 도달하면 +100
      -큰 힘으로 움직이면 음의보상을 더 많이 받아 까다로움

    회귀모델 =성능 별로

    회귀 신경망 대신 큐러닝으로 문제를 풀어볼 수 있음

    Q러닝이란

    1. 관찰상태에서 취할 수 있는 모든 행동의 Q값을 학습하는 방법
    2. 특정 상태에서 높은 Q값 우선적 선택
    3. 가장 높은 Q값을 가진 행동을 선택할 수도 있고,소프트맥스 함수로 각 Q값을 입력으로 삼아 확률 기반 행동을 할 수도있다
      = Q테이블 학습
    • 큐테이블은 이산적으로 관찰공간과 행동공간을 격좌화 시켜야 한다
    • 관찰공간(2)+ 행동공간(1)=3차워내
      obs_to_state:관찰 상태를 큐테이블의 각 격자에 배당
      softmax() 함수로 Q값을 확률로 바꿔서 행동선택
profile
잘해지는 그날까지 그 일기..

0개의 댓글