[RL] Lecture 1: Introduction to Reinforcement Learning by David Silver

Minseo Jeong·2025년 5월 15일

RL by David Silver

목록 보기
1/11
post-thumbnail

| 강의 목표

  • 강화학습이 무엇인지 개념적으로 이해하기
  • 다른 머신러닝 분야와의 차별점 파악하기
  • 강화학습 문제의 구조와 구성요소 이해
  • 주요 도전 과제(탐험 vs. 이용, 예측 vs. 제어 등) 살펴보기

| 1. 강화학습이란?

다양한 분야와의 연결

강화학습은 아래 여러 분야와 연결된다:

  • 컴퓨터 과학
  • 경제학
  • 심리학
  • 최적 제어 이론
  • 뇌과학 (보상 시스템)
  • 로보틱스
  • 머신러닝

머신러닝의 세 가지 주요 가지

  1. 지도학습 (Supervised Learning)
  2. 비지도학습 (Unsupervised Learning)
  3. 강화학습 (Reinforcement Learning)

| 2. 강화학습의 특징

특징설명
감독 없음정답(label) 대신 보상(reward)만 존재
지연된 피드백즉각적인 정답이 주어지지 않음
순차적 데이터시간 흐름이 중요함 (Sequential Decision Making)
행동의 영향에이전트의 행동이 미래 데이터에 영향을 줌

| 3. RL 문제의 구성요소

목표

누적 보상을 최대화하는 행동을 선택하라

보상의 정의

  • 보상 RtR_t: 특정 행동이 얼마나 좋은지 알려주는 신호

  • Reward Hypothesis:

    "모든 목표는 누적 보상의 최대화로 표현할 수 있다"

예시

문제보상
헬기 스턴트목표 궤도 유지 → +, 충돌 → -
주식 투자수익 → +
로봇 걷기앞으로 이동 → +, 넘어짐 → -

| 4. 에이전트와 환경

  • 매 시간 tt에:

    • 에이전트가 행동 AtA_t 수행
    • 환경이 관측 Ot+1O_{t+1}, 보상 Rt+1R_{t+1} 반환
Agent      → action (A_t)
Environment → observation (O_t), reward (R_t)

| 5. State의 개념

정의

  • 상태 StS_t과거(history)의 요약이다
  • 역사(history) = 관측, 행동, 보상의 누적
H_t = O1, R1, A1, ..., At-1, Ot, Rt
S_t = f(H_t)

Markov Property

"미래는 현재 상태에만 의존한다"

수식:

P[St+1St]=P[St+1S1,...,St]P[S_{t+1} | S_t] = P[S_{t+1} | S_1, ..., S_t]

| 6. 상태의 유형

상태 종류설명
환경 상태 SteS_t^e환경 내부의 실제 상태 (보통 관측 불가)
에이전트 상태 StaS_t^a에이전트가 내부적으로 사용하는 상태 표현
정보 상태 (Markov State)과거 정보를 요약하며 미래를 예측할 수 있는 상태

| 7. MDP와 POMDP

환경 유형설명
Fully ObservableOt=StO_t = S_t: MDP (Markov Decision Process)
Partially ObservableOtStO_t \ne S_t: POMDP (Partially Observable MDP)

| 8. 에이전트의 구성 요소

구성 요소설명
정책(Policy)상태 → 행동을 매핑하는 함수
가치 함수(Value Function)상태(또는 상태-행동)의 장기 보상 예측
모델(Model)다음 상태 및 보상을 예측하는 함수

| 9. 정책과 가치함수

  • 정책 π:

    • 결정적: a=π(s)a = π(s)
    • 확률적: π(as)=P[At=aSt=s]π(a|s) = P[A_t = a | S_t = s]
  • 가치 함수:

vπ(s)=Eπ[Rt+1+γRt+2+γ2Rt+3+St=s]v^{π}(s) = E_π[R_{t+1} + γR_{t+2} + γ^2R_{t+3} + \dots | S_t = s]

| 10. 모델의 정의

  • 상태 전이 확률:
Pssa=P[St+1=sSt=s,At=a]P^a_{ss'} = P[S_{t+1} = s' | S_t = s, A_t = a]
  • 보상 기대값:
Rsa=E[Rt+1St=s,At=a]R^a_s = E[R_{t+1} | S_t = s, A_t = a]

| 11. 강화학습 에이전트의 유형

구분예시
Value-basedQ-learning
Policy-basedREINFORCE
Actor-CriticA2C, PPO 등
Model-freeQ-learning, DQN
Model-basedMuZero 등

| 12. RL의 핵심 도전 과제

탐험 vs. 이용 (Exploration vs. Exploitation)

전략설명
이용(Exploitation)지금까지 가장 보상이 높았던 행동 선택
탐험(Exploration)새로운 행동을 시도하여 더 나은 보상 탐색

예시: 식당 선택, 광고 추천, 유전 알고리즘

예측 vs. 제어

개념설명
예측 (Prediction)주어진 정책에 대해 상태의 가치 예측
제어 (Control)최적의 정책을 찾아내는 문제

| 13. 예제: Gridworld

  • 다양한 상태에서의 가치 계산 (Prediction)
  • 최적 경로 도출 (Control)
  • +10 보상 → 우측 상단
  • +5 보상 → 좌측 하단

| 정리

항목설명
목표누적 보상 최대화
구성 요소정책, 가치함수, 모델
환경 유형MDP, POMDP
핵심 과제탐험 vs. 이용 / 예측 vs. 제어

| 참고 자료

profile
로봇 소프트웨어 개발자입니다. AI 공부도 합니다.

0개의 댓글