강화학습은 에이전트(Agent)가 환경(Environment)과 상호작용하면서, 보상(Reward) 신호를 통해 최적의 행동(Action) 정책(Policy)을 학습하는 기계 학습 분야입니다.
강화학습은 에이전트가 환경과 상호작용하며 최적의 정책을 학습하는 과정입니다.
복잡한 상태(State)와 행동(Action) 간의 관계를 추상화하여 에이전트가 환경에서 효율적으로 보상을 극대화할 수 있습니다.
신경망은 이러한 상태-행동 관계의 중요 특징을 추출하고 추상화하여 학습을 돕는 핵심 도구입니다.
사례로 자율주행차와 Atari 게임 같은 복잡한 문제에서도, 신경망은 데이터에서 학습 가능한 패턴을 추출하고 최적 행동을 결정하도록 에이전트를 도와줍니다.
에이전트(Agent)
환경(Environment)
상태(State)
현재 환경의 상황을 나타내는 정보.
에이전트는 상태를 기반으로 다음 행동을 결정합니다.
행동(Action)
보상(Reward)
특정 상태에서 행동을 수행한 결과로 환경이 에이전트에게 제공하는 신호.
정책(Policy)
보상 함수(Reward Function)
상호작용(Interaction)
피드백 기반 학습
정책 업데이트
목표
상태-행동 관계란, 특정 상태에서 에이전트가 취할 수 있는 행동과 그 행동의 결과 사이의 관계를 말합니다.
에이전트는 현재 상태(State)를 보고 행동(Action)을 선택하며, 이 선택이 환경에서 어떤 결과를 만들고 보상이 어떻게 주어지는지 학습해야 합니다.
특징
현재 상태는 환경의 상황을 나타냄.
고차원 데이터로 표현될 수도 있음.
예시
자율주행
게임(Atari)
특징
에이전트는 하나의 행동을 선택하여 환경에 영향을 미칩니다.
행동은 이산적(Discrete)일 수도 있고 연속적(Continuous)일 수도 있습니다.
예시
자율주행
로봇 제어
중요한 관계 파악
행동 결정 간소화
효율적인 정책 학습
특징 추출
상태-행동 매핑
추출된 특징과 행동 간의 관계를 학습.
정책 학습:
상태: 차량 센서와 카메라에서 수집된 이미지 데이터.
행동: 가속, 브레이크, 좌회전, 우회전.
추상화 과정
CNN(합성곱 신경망)을 통해 도로의 차선, 신호를 인식 및 처리.
추출된 정보를 기반으로 최적의 행동(가속 또는 회전)을 선택.
상태: 2D 게임 화면의 픽셀 데이터.
행동: 좌로 이동, 우로 이동, 발사 등의 선택 가능.
추상화 과정
게임 화면을 CNN으로 처리하여 적 위치, 장애물, 캐릭터 상태 등을 추출.
상태를 벡터로 추상화하여 행동과 연계된 규칙 학습.