[논문 읽기] Soft Actor-Critic Algorithms and Applications

벵갈·2024년 11월 12일

강화학습 논문

논문 읽기

목록 보기

10/12

0. 개요

오늘 읽을 것은 줄여서 SAC라고 부르는 알고리즘이다. 이것도 강화학습 논문들을 볼 때 비교대상으로 있었던 적이 많았던거 같아서 오늘 읽을 논문으로 설정했다.

1. 논문 요약

1.1. 논문 개요

논문 제목: Soft Actor-Critic Algorithms and Applications
논문 저자: Tuomas Haarnoja∗, Aurick Zhou, Kristian Hartikainen, George Tucker, Sehoon Ha, Jie Tan, Vikash Kumar, Henry Zhu, Abhishek Gupta, Pieter Abbeel, Sergey Levine

1.2. 배경

이전 연구들을 알고리즘 별로 나누어서 설명한다.

Maximum Entropy
Maximum Entropy 강화학습은 기존의 기대 보상 RL에서 목표를 일반화 하여 좋은 성능을 보였다. 일부 연구에서는 최대 엔트로피 설정을 on-policy 학습에 적용해 주로 엔트로피를 정규화 요소로 활용했으나 이 방식은 여전히 샘플 효율이 낮다는 문제가 있다.
On Policy & Off Policy
On Policy는 안정적이지만 효율이 낮기 때문에 많은 양의 데이터를 필요로 하는 문제가 있다. Off Policy의 경우에는 대표적인 방법으로 DDPG가 있고 Q 함수 근사를 이용해 학습을 진행한다. 그러나 안정성이 낮고 하이퍼 파라미터에 영향을 크게 받는 문제가 있다.
그 외
Haarnoja 등(2017)은 Soft Q-learning을 통해 정책의 엔트로피를 최대화하며 샘플 효율성을 높이기 위한 방법을 제안했으나 Actor 네트워크가 Q-함수와 직접 상호작용하지 않는 한계가 있었다.

이러한 한계들 때문에 SAC에서는 Actor-critic과 off-policy, 그리고 maximum entropy를 결합하여 샘플 효율성과 안정성을 개선하고자 하였다.

그리고 아래에는 논문에 활용되는 알고리즘인 Maximum Entropy RL에 대해 간략하게 설명한다.

표준 강화 학습의 목표는 기대 보상의 합을 극대화하는 것이다:

\sum_{t} \mathbb{E}_{(s_t, a_t) \sim \rho_\pi} [r(s_t, a_t)]

여기서 $\pi(a_t | s_t)$ 는 최적의 정책을 학습하기 위한 확률이다. 최대 엔트로피 목적 함수는 이 목표를 일반화하여 엔트로피 항을 추가하는데, 이는 방문한 각 상태에서 정책의 엔트로피를 최대화하는 목표를 추가하는 것이다:

\pi^* = \arg \max_\pi \sum_{t} \mathbb{E}_{(s_t, a_t) \sim \rho_\pi} \left[ r(s_t, a_t) + \alpha H(\pi(\cdot | s_t)) \right]

여기서 $\alpha$ 는 엔트로피 항과 보상의 상대적 중요성을 결정하는 온도 매개변수로, 최적 정책의 확률을 조절한다. $\alpha \to 0$ 으로 설정할 경우 표준 강화 학습 목표를 다시 얻을 수 있다.

1.3. 연구 방법

SAC는 엔트로피에 기반하여 Soft Q를 정의한다. Soft Q의 수식은 아래와 같다.

T^\pi Q(s_t,a_t) = r(s_t,a_t) + \gamma E_{s_{t+1 \sim p}}[V({s_{t+1}})0]

그리고 여기서 soft 상태 값 함수 는 아래와 같다.

V(s_t) = E_{a_t \sim \pi}[Q({s_t, a_t}) - \alpha\log\pi(a_t|s_t)]

여기서 𝛼는 엔트로피 항과 보상의 상대적 중요성을 조정하는 온도 매개변수로, 탐색과 수렴 간의 균형을 맞춘다.

replay buffer를 활용해 과거의 데이터를 사용하여 off-policy 기법을 활용한다. 이는 dqn에서 활용하는 것과 유사하다.

또한, SAC는 두 개의 Q 함수를 사용해 학습의 안정성을 높였다. 이는 Double Q-learning에서 영감을 받은 방식으로 두 Q 함수 중 최소값을 취해 긍정적 편향을 줄임으로써 Q 값의 안정성을 확보한다. 이러한 방식은 특히 off-policy 학습에서 중요한 역할을 한다.

이 soft Q 값을 바탕으로 SAC는 반복해서 학습을 진행한다. Actor-Critic과 비슷하게 policy를 학습하는 과정과 Q를 학습하는 과정이 나눠져 있으며 각각의 학습 과정에서 손실함수 J를 정의하여 그래디언트로 계산한다. 아래는 손실함수 J이다.

J_Q(\theta) = \mathbb{E}_{(s_t, a_t) \sim D} \left[ \frac{1}{2} \left( Q_\theta(s_t, a_t) - \left( r(s_t, a_t) + \gamma \, \mathbb{E}_{s_{t+1} \sim p} \left[ V(s_{t+1}) \right] \right) \right)^2 \right]

J_\pi(\phi) = \mathbb{E}_{s_t \sim D} \left[ \mathbb{E}_{a_t \sim \pi_\phi} \left[ \alpha \log \pi_\phi(a_t | s_t) - Q_\theta(s_t, a_t) \right] \right]

그리고 학습의 안정성을 위해 SAC는 타깃 네트워크 $Q_{\theta\prime}$ 을 사용하며 이는 𝜃의 지수 이동 평균을 사용해 업데이트한다. 이는 DQN에서 사용하는 방식과 비슷하다.

온도변수 $\alpha$ 를 추가적으로 학습하기 위한 $J(\alpha)$ 도 정의한다. 이것으로 정책의 엔트로피 수준을 동적으로 정의할 수 있다.

J(\alpha) = \mathbb{E}_{a_t \sim \pi_{\phi}} \left[ -\alpha \left( \log \pi_{\phi}(a_t | s_t) + H_{\text{target}} \right) \right]

1.4. 주요 결과

6가지 시뮬레이션 로봇 환경에 대해 실험을 진행했으며 DDPG, TD3, PPO, 고정된 온도의 SAC, 자동 온도 조절의 SAC의 5가지를 비교했다.

6가지 모두 SAC가 다른 알고리즘에 비해 좋은 성능을 보였지만 rllab의 휴휴머노이드에서는 고정된 온도가 안정된 성능을 보였고 자동 온도 조절의 SAC는 분산값이 굉장히 심하게 나타났다.

특히 어려운 과제일 수록 SAC가 좋은 성능을 보였고 rllab의 휴머노이드를 제외하면 자동 온도 조절의 SAC가 더 안정적인 성능을 보였다.

그리고 아래의 2가지 실제 로봇 환경에서도 평가를 위해 SAC를 적용하여 진행하였다.

Quadrupedal Locomotion: Minitaur 사족 로봇을 이용해 평지에서 학습한 후 언덕, 장애물, 계단과 같은 다양한 지형에서도 걸을 수 있는 정책을 학습했다. 약 2시간 동안 16만 개의 환경 상호작용을 통해 학습이 진행되었고 엔트로피 최대화 전략 덕분에 다양한 지형 변화에 대해 강한 일반화 성능을 보였다.
Dexterous Hand Manipulation: Dclaw 로봇 손을 사용하여 RGB 이미지를 통해 밸브를 특정 방향으로 회전시키는 작업을 수행했다. 약 20시간 동안 30만 개의 상호작용으로 학습이 진행되었고, 위치 데이터를 직접 사용할 경우 학습 시간이 3시간으로 단축되었다. 이 실험은 비전 기반의 복잡한 조작 작업에서도 SAC가 안정적이고 효율적으로 학습할 수 있음을 보여준다.