Financial Trading as a Game: A Deep Reinforcement Learning Approach

Tasker_Jang·2025년 3월 15일

Abstract

금융 시장에서 지속적인 수익을 창출하는 자동화 프로그램은 모든 시장 참여자에게 매력적입니다. 최근 딥 강화학습의 발전은 이러한 트레이딩 에이전트의 엔드투엔드 학습을 위한 프레임워크를 제공합니다. 본 논문에서는 금융 트레이딩 작업에 적합한 마르코프 의사결정 과정(MDP) 모델을 제안하고 최신 심층 순환 Q-네트워크(DRQN) 알고리즘으로 해결합니다.

금융 트레이딩 환경에 더 적합하도록 기존 학습 알고리즘에 다음과 같은 수정을 제안합니다:

현대 딥 강화학습 알고리즘에서 사용되는 크기(종종 수백만)와 비교하여 상당히 작은 리플레이 메모리(수백 크기)를 사용합니다.
에이전트에게 모든 행동에 대한 추가 피드백 신호를 제공함으로써 무작위 탐색의 필요성을 줄이는 행동 증강 기법을 개발합니다. 이를 통해 학습 과정에서 탐욕 정책을 사용할 수 있게 되었고, 더 일반적으로 사용되는 ε-greedy 탐색보다 강력한 실증적 성능을 보여줍니다. 그러나 이 기법은 몇 가지 시장 가정 하에서 금융 트레이딩에 특화되어 있습니다.
순환 신경망 학습을 위해 더 긴 시퀀스를 샘플링합니다. 이 메커니즘의 부산물로 이제 매 T 단계마다 에이전트를 학습시킬 수 있습니다. 이는 전체 계산량이 T 배수로 감소하므로 학습 시간을 크게 줄입니다.

Introduction

이 논문은 딥 강화학습 알고리즘을 금융 트레이딩 영역에 적용하는 효과성을 조사합니다. 주요 내용은 다음과 같습니다:

금융 트레이딩 특성

에이전트가 이산 시간 단계에서 금융 시장과 상호작용함 (밀리초 단위까지)
에이전트가 시장에 적용할 수 있는 합법적 행동 세트가 존재함
금융 시장이 각 시간 단계에서 에이전트에게 새로운 정보를 제공하지만, 데이터 생성 방식에 대한 완전한 단서는 없음
강력한 에이전트는 시장에 영향을 미칠 잠재력이 있음

직면하는 주요 도전 과제

기준선 부족: 금융 트레이딩에 적합한 MDP 모델, 네트워크 아키텍처, 하이퍼파라미터가 명확하지 않음
데이터 품질 및 가용성: 고해상도 금융 데이터 획득이 어렵고, 비정상성(non-stationary) 시계열이 학습 알고리즘에 도전과제 제시
금융 시장의 부분적 관측 가능성: 시장 참여자들의 현재 시장 상황에 대한 합의를 완전히 관찰할 수 없음
탐색과 활용의 딜레마: 무작위 탐색이 거래 비용을 증가시키고 성능을 저하시킴

논문의 기여

공개적으로 접근 가능한 데이터만으로 최신 딥 강화학습 알고리즘으로 해결 가능한 신호 기반 금융 트레이딩용 MDP 모델 제안
금융 트레이딩에 더 적합하도록 심층 순환 Q-네트워크(DRQN) 알고리즘 수정:
- 상당히 작은 리플레이 메모리 사용
- 학습을 위한 더 긴 시퀀스 샘플링
- 금융 트레이딩 환경에서 무작위 탐색 필요성을 줄이는 행동 증강 기법 개발
거래 비용을 고려한 상태에서 주요 및 교차 쌍을 포함한 12개 통화쌍에서 양의 수익률 달성

Method

이 논문의 2장에서는 제안된 MDP 모델, 모델 아키텍처 및 학습 알고리즘에 대한 자세한 설명을 제공합니다. 주요 내용은 다음과 같습니다:

데이터 준비 및 특징 추출

TrueFX.com에서 2012년 1월부터 2017년 12월까지의 틱-바이-틱 외환 데이터 다운로드
AUDJPY, AUDNZD, AUDUSD 등 12개 통화쌍 선택(주요 및 교차 쌍 포함)
데이터를 15분 간격으로 리샘플링하여 시가, 고가, 저가, 종가 및 틱 볼륨 추출

금융 트레이딩 MDP 정의

상태 공간 (R^198)

시간 특징 (R^3): 분, 시간, 요일을 사인 함수를 통해 인코딩
시장 특징 (R^16×12): OHLCV 데이터에서 종가와 틱 볼륨의 최근 8개 로그 수익률 추출, 96 기간의 Z-점수 정규화 적용
포지션 특징 (R^3): 현재 포지션을 3차원 원-핫 벡터로 인코딩 (-1, 0, +1 단위)

행동 공간

세 가지 값(-1, 0, 1)의 간단한 행동 세트 채택
포지션 반전 허용(이중 거래 비용 발생)

보상 함수

각 시간 단계에서의 포트폴리오 로그 수익률로 정의
포트폴리오 가치는 계좌 잔액과 미실현 손익을 포함
스프레드를 거래 결정 비용 측정의 원칙적 방법으로 사용

행동 증강을 통한 완전 활용

무작위 탐색의 필요성을 줄이기 위해 모든 행동에 대한 보상 신호 제공
제로 시장 영향 가설(에이전트의 행동이 현재 시장 상황에 영향을 미치지 않음)을 가정
모든 행동에 대한 Q-값을 업데이트할 수 있는 행동 증강 손실 함수 제안

모델 아키텍처

최적 행동-가치 함수를 표현하기 위한 4계층 신경망 사용
256 은닉 유닛과 ELU 활성화를 가진 첫 두 층은 선형 층
세 번째 층은 동일한 크기의 LSTM 층
네 번째 층은 3개의 출력 유닛을 가진 선형 층
약 65,000개의 파라미터를 가진 비교적 작은 네트워크

학습 방식

수정된 학습 방식

비교적 작은 리플레이 메모리가 더 효과적임을 발견 (금융 트레이딩에서는 최근 데이터가 과거 데이터보다 중요)
DRQN 논문에서 사용된 스텝 수보다 더 긴 시퀀스를 리플레이 메모리에서 샘플링 (장기 의존성 학습 가능)
더 긴 시퀀스를 샘플링하므로 매 단계마다 네트워크를 학습시킬 필요가 없음 (계산량 T배 감소)

완전한 온라인 학습 알고리즘

순수 온라인 방식으로 네트워크를 최적화하여 실시간 트레이딩과 가장 유사하게 구현
결과 알고리즘을 금융 심층 순환 Q-네트워크(Financial DRQN)라고 명명
OpenAI Gym과 유사한 환경 구현이 RL 패러다임에서 유용함을 발견

이 방법론은 금융 트레이딩의 특성을 고려하여 기존 DRQN 알고리즘을 수정하고, 무작위 탐색의 필요성을 줄이기 위한 새로운 접근 방식을 제안합니다.

Experiment

하이퍼파라미터

학습 시간 단계(T): 96
리플레이 메모리 크기(N): 480
학습률: 0.00025
최적화기: Adam
할인 인자: 0.99
타겟 네트워크 τ: 0.001

시뮬레이션 설정

초기 자본: 100,000 (기준 통화)
거래 규모: 100,000
스프레드: 0.08 bp
거래일: 252일/년

시뮬레이션 결과

모든 실험은 5회 수행되었으며, 평균 자산 곡선이 표준 편차 범위와 함께 제시되었습니다.

주요 성과 지표 (Table 1)

모든 통화쌍에서 양의 수익률 달성
특히 높은 성과:
- CHFJPY: 60.8% 연간수익률, 3.1 샤프비율
- GBPJPY: 39.0% 연간수익률, 2.9 샤프비율
- AUDNZD: 34.3% 연간수익률, 5.7 샤프비율
최대 낙폭(MDD)은 대부분 합리적인 수준 (CADJPY의 -25.24%가 가장 큼)

거래 통계 (Table 2)

에이전트는 높은 승률(약 60%)을 선호하면서 거래당 평균 이익과 손실을 대략 동등하게 유지
평균 거래 기대값은 양수로, 모든 통화쌍에서 수익성 있는 전략 발견
거래 빈도는 3.66에서 5.31 사이로 비교적 일관됨

스프레드의 영향 (Table 3)

다양한 스프레드 수준(0.08, 0.1, 0.15, 0.2 bp)에서 실험한 결과:

일반적으로 더 넓은 스프레드는 더 나쁜 성능을 초래함 (거래 비용이 스프레드 폭에 비례하기 때문)
대부분의 통화쌍은 0.15 bp 스프레드에서도
수익성 유지 (USDCAD와 EURGBP는 0.2 bp에서 손실 발생)
흥미롭게도 일부 JPY 견적 통화쌍의 경우 더 넓은 스프레드에서 성능이 향상됨 (약간 더 넓은 스프레드가 시장 변화에 더 강건한 전략을 찾도록 에이전트를 강제함)

행동 증강의 효과 (Table 4)

행동 증강 기법과 전통적인 ε-greedy 정책(ε=0.1)을 비교한 결과:

행동 증강을 사용할 때 성능이 향상되고 표준 편차가 좁아짐
행동 증강 사용 시 평균 6.4%의 추가 연간 수익률 증가
가장 큰 이득을 보인 통화쌍: USDCAD(16.3% 증가)
기존 ε-greedy 정책에서는 USDCAD가 손실(-4.1%)을 보였으나 행동 증강 사용 시 수익(12.2%)으로 전환됨

이 실험 결과는 제안된 금융 DRQN 알고리즘과 행동 증강 기법이 외환 시장에서 효과적임을 보여주며, 다양한 시장 조건과 거래 비용에서도 강건한 성능을 유지함을 입증합니다.

Conclusion

연구 성과

유연한 MDP 모델 제안: 신호 기반 트레이딩 전략을 위한 마르코프 의사결정 과정(MDP) 모델을 제안했으며, 이 모델은 모델 아키텍처와 학습 알고리즘에 최소한의 수정으로 확장 가능합니다.
DRQN 알고리즘 수정: 기존 심층 순환 Q-네트워크 알고리즘을 금융 트레이딩 환경에 더 적합하도록 수정했습니다.
- 무작위 탐색의 필요성을 줄이기 위한 행동 증강 기법 제안
- 가치 기반 딥 강화학습에서 사용되는 것보다 상당히 작은 리플레이 메모리 사용
실증적 성과: 12개 통화쌍에 대해 대부분의 시뮬레이션 설정에서 양의 결과를 달성했습니다.
- 거래 비용을 고려한 상태에서 순수 딥 강화학습 알고리즘으로 달성한 최초의 긍정적 결과
- 에이전트가 발견한 전략은 기준선과 낮거나 상관관계가 없음
직관에 반하는 발견: 스프레드를 약간 증가시키면 전체 성능이 향상된다는 사실을 발견했습니다.
- 절반 이상의 통화쌍에서 관찰된 현상
- 약간 높은 스프레드가 에이전트가 학습 과정에서 더 강건하고 신뢰할 수 있는 거래 전략을 발견하도록 강제함
- 그러나 스프레드를 더 넓히면 성능이 저하됨

향후 연구 방향

상태 공간과 행동 공간 확장:
- 다른 시장의 가격 데이터, 거시 데이터(정치 및 경제 뉴스, 경제 지표 등), 기본 데이터 등 더 많은 입력 특징 추가
- 포지션 크기 결정이나 지정가 주문 게시와 같은 더 자유로운 거래 결정을 에이전트에게 제공
다양한 거래 시나리오에 강화학습 적용:
- 고빈도 거래, 페어 트레이딩, 장기 주식 투자 등에 적용
- 투자자 요구에 맞는 다양한 전략을 결합한 포트폴리오 구성
분포적 강화학습 활용:
- 기대 수익 E[Q(s,a)]만 학습하는 대신 Q(s,a)의 전체 분포를 학습
- 벨만 방정식의 분포 변형을 통해 가능
- 기대 Q-값이 가장 높고 Q-값의 표준 편차가 가장 낮은 행동 선택 가능
- 이를 통해 샤프 비율이 가장 높은 행동을 선택하고, 현대 투자자에게 더 적합한 전략 구현

이 연구는 딥 강화학습을 금융 트레이딩에 적용하는 데 있어 중요한 진전을 이루었으며, 향후 더욱 확장된 상태 공간, 행동 공간 및 위험 조정 접근 방식을 통해 더 강력한 트레이딩 시스템을 개발할 가능성을 제시합니다.

Tasker_Jang

터널을 지나고 있을 뿐, 길은 여전히 열려 있다.

이전 포스트

A Deep Reinforcement Learning Framework for the Financial Portfolio Management Problem

다음 포스트