
강화학습은 아래 여러 분야와 연결된다:
| 특징 | 설명 |
|---|---|
| 감독 없음 | 정답(label) 대신 보상(reward)만 존재 |
| 지연된 피드백 | 즉각적인 정답이 주어지지 않음 |
| 순차적 데이터 | 시간 흐름이 중요함 (Sequential Decision Making) |
| 행동의 영향 | 에이전트의 행동이 미래 데이터에 영향을 줌 |
누적 보상을 최대화하는 행동을 선택하라
보상 : 특정 행동이 얼마나 좋은지 알려주는 신호
Reward Hypothesis:
"모든 목표는 누적 보상의 최대화로 표현할 수 있다"
| 문제 | 보상 |
|---|---|
| 헬기 스턴트 | 목표 궤도 유지 → +, 충돌 → - |
| 주식 투자 | 수익 → + |
| 로봇 걷기 | 앞으로 이동 → +, 넘어짐 → - |
매 시간 에:
Agent → action (A_t)
Environment → observation (O_t), reward (R_t)
H_t = O1, R1, A1, ..., At-1, Ot, Rt
S_t = f(H_t)
"미래는 현재 상태에만 의존한다"
수식:
| 상태 종류 | 설명 |
|---|---|
| 환경 상태 | 환경 내부의 실제 상태 (보통 관측 불가) |
| 에이전트 상태 | 에이전트가 내부적으로 사용하는 상태 표현 |
| 정보 상태 (Markov State) | 과거 정보를 요약하며 미래를 예측할 수 있는 상태 |
| 환경 유형 | 설명 |
|---|---|
| Fully Observable | : MDP (Markov Decision Process) |
| Partially Observable | : POMDP (Partially Observable MDP) |
| 구성 요소 | 설명 |
|---|---|
| 정책(Policy) | 상태 → 행동을 매핑하는 함수 |
| 가치 함수(Value Function) | 상태(또는 상태-행동)의 장기 보상 예측 |
| 모델(Model) | 다음 상태 및 보상을 예측하는 함수 |
정책 π:
가치 함수:
| 구분 | 예시 |
|---|---|
| Value-based | Q-learning |
| Policy-based | REINFORCE |
| Actor-Critic | A2C, PPO 등 |
| Model-free | Q-learning, DQN |
| Model-based | MuZero 등 |
| 전략 | 설명 |
|---|---|
| 이용(Exploitation) | 지금까지 가장 보상이 높았던 행동 선택 |
| 탐험(Exploration) | 새로운 행동을 시도하여 더 나은 보상 탐색 |
예시: 식당 선택, 광고 추천, 유전 알고리즘
| 개념 | 설명 |
|---|---|
| 예측 (Prediction) | 주어진 정책에 대해 상태의 가치 예측 |
| 제어 (Control) | 최적의 정책을 찾아내는 문제 |
| 항목 | 설명 |
|---|---|
| 목표 | 누적 보상 최대화 |
| 구성 요소 | 정책, 가치함수, 모델 |
| 환경 유형 | MDP, POMDP |
| 핵심 과제 | 탐험 vs. 이용 / 예측 vs. 제어 |