[RL] Lecture 1: Introduction to Reinforcement Learning by David Silver

Minseo Jeong·2025년 5월 15일

RL by David Silver

목록 보기

1/11

| 강의 목표

강화학습이 무엇인지 개념적으로 이해하기
다른 머신러닝 분야와의 차별점 파악하기
강화학습 문제의 구조와 구성요소 이해
주요 도전 과제(탐험 vs. 이용, 예측 vs. 제어 등) 살펴보기

| 1. 강화학습이란?

다양한 분야와의 연결

강화학습은 아래 여러 분야와 연결된다:

컴퓨터 과학
경제학
심리학
최적 제어 이론
뇌과학 (보상 시스템)
로보틱스
머신러닝

머신러닝의 세 가지 주요 가지

지도학습 (Supervised Learning)
비지도학습 (Unsupervised Learning)
강화학습 (Reinforcement Learning)

| 2. 강화학습의 특징

특징	설명
감독 없음	정답(label) 대신 보상(reward)만 존재
지연된 피드백	즉각적인 정답이 주어지지 않음
순차적 데이터	시간 흐름이 중요함 (Sequential Decision Making)
행동의 영향	에이전트의 행동이 미래 데이터에 영향을 줌

| 3. RL 문제의 구성요소

목표

누적 보상을 최대화하는 행동을 선택하라

보상의 정의

보상 $R_t$ : 특정 행동이 얼마나 좋은지 알려주는 신호
Reward Hypothesis:

"모든 목표는 누적 보상의 최대화로 표현할 수 있다"

예시

문제	보상
헬기 스턴트	목표 궤도 유지 → +, 충돌 → -
주식 투자	수익 → +
로봇 걷기	앞으로 이동 → +, 넘어짐 → -

| 4. 에이전트와 환경

매 시간 $t$ 에:
- 에이전트가 행동 $A_t$ 수행
- 환경이 관측 $O_{t+1}$ , 보상 $R_{t+1}$ 반환

Agent      → action (A_t)
Environment → observation (O_t), reward (R_t)

| 5. State의 개념

정의

상태 $S_t$ 는 과거(history)의 요약이다
역사(history) = 관측, 행동, 보상의 누적

H_t = O1, R1, A1, ..., At-1, Ot, Rt
S_t = f(H_t)

Markov Property

"미래는 현재 상태에만 의존한다"

수식:

P[S_{t+1} | S_t] = P[S_{t+1} | S_1, ..., S_t]

| 6. 상태의 유형

상태 종류	설명
환경 상태 $S_t^e$	환경 내부의 실제 상태 (보통 관측 불가)
에이전트 상태 $S_t^a$	에이전트가 내부적으로 사용하는 상태 표현
정보 상태 (Markov State)	과거 정보를 요약하며 미래를 예측할 수 있는 상태

| 7. MDP와 POMDP

환경 유형	설명
Fully Observable	$O_t = S_t$ : MDP (Markov Decision Process)
Partially Observable	$O_t \ne S_t$ : POMDP (Partially Observable MDP)

| 8. 에이전트의 구성 요소

구성 요소	설명
정책(Policy)	상태 → 행동을 매핑하는 함수
가치 함수(Value Function)	상태(또는 상태-행동)의 장기 보상 예측
모델(Model)	다음 상태 및 보상을 예측하는 함수

| 9. 정책과 가치함수

정책 π:
- 결정적: $a = π(s)$
- 확률적: $π(a|s) = P[A_t = a | S_t = s]$
가치 함수:

v^{π}(s) = E_π[R_{t+1} + γR_{t+2} + γ^2R_{t+3} + \dots | S_t = s]

| 10. 모델의 정의

상태 전이 확률:

P^a_{ss'} = P[S_{t+1} = s' | S_t = s, A_t = a]

보상 기대값:

R^a_s = E[R_{t+1} | S_t = s, A_t = a]

| 11. 강화학습 에이전트의 유형

구분	예시
Value-based	Q-learning
Policy-based	REINFORCE
Actor-Critic	A2C, PPO 등
Model-free	Q-learning, DQN
Model-based	MuZero 등

| 12. RL의 핵심 도전 과제

탐험 vs. 이용 (Exploration vs. Exploitation)

전략	설명
이용(Exploitation)	지금까지 가장 보상이 높았던 행동 선택
탐험(Exploration)	새로운 행동을 시도하여 더 나은 보상 탐색

예시: 식당 선택, 광고 추천, 유전 알고리즘

예측 vs. 제어

개념	설명
예측 (Prediction)	주어진 정책에 대해 상태의 가치 예측
제어 (Control)	최적의 정책을 찾아내는 문제

| 13. 예제: Gridworld

다양한 상태에서의 가치 계산 (Prediction)
최적 경로 도출 (Control)
+10 보상 → 우측 상단
+5 보상 → 좌측 하단

| 정리

항목	설명
목표	누적 보상 최대화
구성 요소	정책, 가치함수, 모델
환경 유형	MDP, POMDP
핵심 과제	탐험 vs. 이용 / 예측 vs. 제어

| 참고 자료

David Silver 강의 홈페이지:
https://davidstarsilver.wordpress.com/teaching/

Minseo Jeong

로봇 소프트웨어 개발자입니다. AI 공부도 합니다.

다음 포스트

[RL] Lecture 1: Introduction to Reinforcement Learning by David Silver

RL by David Silver

| 강의 목표

| 1. 강화학습이란?

다양한 분야와의 연결

머신러닝의 세 가지 주요 가지

| 2. 강화학습의 특징

| 3. RL 문제의 구성요소

목표

보상의 정의

예시

| 4. 에이전트와 환경

| 5. State의 개념

정의

Markov Property

| 6. 상태의 유형

| 7. MDP와 POMDP

| 8. 에이전트의 구성 요소

| 9. 정책과 가치함수

| 10. 모델의 정의

| 11. 강화학습 에이전트의 유형

| 12. RL의 핵심 도전 과제

탐험 vs. 이용 (Exploration vs. Exploitation)

예측 vs. 제어

| 13. 예제: Gridworld

| 정리

| 참고 자료

[RL] Lecture 2: Markov Decision Processes by David Silver

0개의 댓글