Abstract
금융 시장에서 지속적인 수익을 창출하는 자동화 프로그램은 모든 시장 참여자에게 매력적입니다. 최근 딥 강화학습의 발전은 이러한 트레이딩 에이전트의 엔드투엔드 학습을 위한 프레임워크를 제공합니다. 본 논문에서는 금융 트레이딩 작업에 적합한 마르코프 의사결정 과정(MDP) 모델을 제안하고 최신 심층 순환 Q-네트워크(DRQN) 알고리즘으로 해결합니다.
금융 트레이딩 환경에 더 적합하도록 기존 학습 알고리즘에 다음과 같은 수정을 제안합니다:
-
현대 딥 강화학습 알고리즘에서 사용되는 크기(종종 수백만)와 비교하여 상당히 작은 리플레이 메모리(수백 크기)를 사용합니다.
-
에이전트에게 모든 행동에 대한 추가 피드백 신호를 제공함으로써 무작위 탐색의 필요성을 줄이는 행동 증강 기법을 개발합니다. 이를 통해 학습 과정에서 탐욕 정책을 사용할 수 있게 되었고, 더 일반적으로 사용되는 ε-greedy 탐색보다 강력한 실증적 성능을 보여줍니다. 그러나 이 기법은 몇 가지 시장 가정 하에서 금융 트레이딩에 특화되어 있습니다.
-
순환 신경망 학습을 위해 더 긴 시퀀스를 샘플링합니다. 이 메커니즘의 부산물로 이제 매 T 단계마다 에이전트를 학습시킬 수 있습니다. 이는 전체 계산량이 T 배수로 감소하므로 학습 시간을 크게 줄입니다.
Introduction
이 논문은 딥 강화학습 알고리즘을 금융 트레이딩 영역에 적용하는 효과성을 조사합니다. 주요 내용은 다음과 같습니다:
금융 트레이딩 특성
- 에이전트가 이산 시간 단계에서 금융 시장과 상호작용함 (밀리초 단위까지)
- 에이전트가 시장에 적용할 수 있는 합법적 행동 세트가 존재함
- 금융 시장이 각 시간 단계에서 에이전트에게 새로운 정보를 제공하지만, 데이터 생성 방식에 대한 완전한 단서는 없음
- 강력한 에이전트는 시장에 영향을 미칠 잠재력이 있음
직면하는 주요 도전 과제
- 기준선 부족: 금융 트레이딩에 적합한 MDP 모델, 네트워크 아키텍처, 하이퍼파라미터가 명확하지 않음
- 데이터 품질 및 가용성: 고해상도 금융 데이터 획득이 어렵고, 비정상성(non-stationary) 시계열이 학습 알고리즘에 도전과제 제시
- 금융 시장의 부분적 관측 가능성: 시장 참여자들의 현재 시장 상황에 대한 합의를 완전히 관찰할 수 없음
- 탐색과 활용의 딜레마: 무작위 탐색이 거래 비용을 증가시키고 성능을 저하시킴
논문의 기여
- 공개적으로 접근 가능한 데이터만으로 최신 딥 강화학습 알고리즘으로 해결 가능한 신호 기반 금융 트레이딩용 MDP 모델 제안
- 금융 트레이딩에 더 적합하도록 심층 순환 Q-네트워크(DRQN) 알고리즘 수정:
- 상당히 작은 리플레이 메모리 사용
- 학습을 위한 더 긴 시퀀스 샘플링
- 금융 트레이딩 환경에서 무작위 탐색 필요성을 줄이는 행동 증강 기법 개발
- 거래 비용을 고려한 상태에서 주요 및 교차 쌍을 포함한 12개 통화쌍에서 양의 수익률 달성
Method
이 논문의 2장에서는 제안된 MDP 모델, 모델 아키텍처 및 학습 알고리즘에 대한 자세한 설명을 제공합니다. 주요 내용은 다음과 같습니다:
데이터 준비 및 특징 추출
- TrueFX.com에서 2012년 1월부터 2017년 12월까지의 틱-바이-틱 외환 데이터 다운로드
- AUDJPY, AUDNZD, AUDUSD 등 12개 통화쌍 선택(주요 및 교차 쌍 포함)
- 데이터를 15분 간격으로 리샘플링하여 시가, 고가, 저가, 종가 및 틱 볼륨 추출
금융 트레이딩 MDP 정의
상태 공간 (R^198)
- 시간 특징 (R^3): 분, 시간, 요일을 사인 함수를 통해 인코딩
- 시장 특징 (R^16×12): OHLCV 데이터에서 종가와 틱 볼륨의 최근 8개 로그 수익률 추출, 96 기간의 Z-점수 정규화 적용
- 포지션 특징 (R^3): 현재 포지션을 3차원 원-핫 벡터로 인코딩 (-1, 0, +1 단위)
행동 공간
- 세 가지 값(-1, 0, 1)의 간단한 행동 세트 채택
- 포지션 반전 허용(이중 거래 비용 발생)
보상 함수
- 각 시간 단계에서의 포트폴리오 로그 수익률로 정의
- 포트폴리오 가치는 계좌 잔액과 미실현 손익을 포함
- 스프레드를 거래 결정 비용 측정의 원칙적 방법으로 사용
행동 증강을 통한 완전 활용
- 무작위 탐색의 필요성을 줄이기 위해 모든 행동에 대한 보상 신호 제공
- 제로 시장 영향 가설(에이전트의 행동이 현재 시장 상황에 영향을 미치지 않음)을 가정
- 모든 행동에 대한 Q-값을 업데이트할 수 있는 행동 증강 손실 함수 제안
모델 아키텍처
- 최적 행동-가치 함수를 표현하기 위한 4계층 신경망 사용
- 256 은닉 유닛과 ELU 활성화를 가진 첫 두 층은 선형 층
- 세 번째 층은 동일한 크기의 LSTM 층
- 네 번째 층은 3개의 출력 유닛을 가진 선형 층
- 약 65,000개의 파라미터를 가진 비교적 작은 네트워크
학습 방식
수정된 학습 방식
- 비교적 작은 리플레이 메모리가 더 효과적임을 발견 (금융 트레이딩에서는 최근 데이터가 과거 데이터보다 중요)
- DRQN 논문에서 사용된 스텝 수보다 더 긴 시퀀스를 리플레이 메모리에서 샘플링 (장기 의존성 학습 가능)
- 더 긴 시퀀스를 샘플링하므로 매 단계마다 네트워크를 학습시킬 필요가 없음 (계산량 T배 감소)
완전한 온라인 학습 알고리즘
- 순수 온라인 방식으로 네트워크를 최적화하여 실시간 트레이딩과 가장 유사하게 구현
- 결과 알고리즘을 금융 심층 순환 Q-네트워크(Financial DRQN)라고 명명
- OpenAI Gym과 유사한 환경 구현이 RL 패러다임에서 유용함을 발견
이 방법론은 금융 트레이딩의 특성을 고려하여 기존 DRQN 알고리즘을 수정하고, 무작위 탐색의 필요성을 줄이기 위한 새로운 접근 방식을 제안합니다.
Experiment
하이퍼파라미터
- 학습 시간 단계(T): 96
- 리플레이 메모리 크기(N): 480
- 학습률: 0.00025
- 최적화기: Adam
- 할인 인자: 0.99
- 타겟 네트워크 τ: 0.001
시뮬레이션 설정
- 초기 자본: 100,000 (기준 통화)
- 거래 규모: 100,000
- 스프레드: 0.08 bp
- 거래일: 252일/년
시뮬레이션 결과
모든 실험은 5회 수행되었으며, 평균 자산 곡선이 표준 편차 범위와 함께 제시되었습니다.
주요 성과 지표 (Table 1)
- 모든 통화쌍에서 양의 수익률 달성
- 특히 높은 성과:
- CHFJPY: 60.8% 연간수익률, 3.1 샤프비율
- GBPJPY: 39.0% 연간수익률, 2.9 샤프비율
- AUDNZD: 34.3% 연간수익률, 5.7 샤프비율
- 최대 낙폭(MDD)은 대부분 합리적인 수준 (CADJPY의 -25.24%가 가장 큼)
거래 통계 (Table 2)
- 에이전트는 높은 승률(약 60%)을 선호하면서 거래당 평균 이익과 손실을 대략 동등하게 유지
- 평균 거래 기대값은 양수로, 모든 통화쌍에서 수익성 있는 전략 발견
- 거래 빈도는 3.66에서 5.31 사이로 비교적 일관됨
스프레드의 영향 (Table 3)
다양한 스프레드 수준(0.08, 0.1, 0.15, 0.2 bp)에서 실험한 결과:
- 일반적으로 더 넓은 스프레드는 더 나쁜 성능을 초래함 (거래 비용이 스프레드 폭에 비례하기 때문)
- 대부분의 통화쌍은 0.15 bp 스프레드에서도
수익성 유지 (USDCAD와 EURGBP는 0.2 bp에서 손실 발생)
- 흥미롭게도 일부 JPY 견적 통화쌍의 경우 더 넓은 스프레드에서 성능이 향상됨 (약간 더 넓은 스프레드가 시장 변화에 더 강건한 전략을 찾도록 에이전트를 강제함)
행동 증강의 효과 (Table 4)
행동 증강 기법과 전통적인 ε-greedy 정책(ε=0.1)을 비교한 결과:
- 행동 증강을 사용할 때 성능이 향상되고 표준 편차가 좁아짐
- 행동 증강 사용 시 평균 6.4%의 추가 연간 수익률 증가
- 가장 큰 이득을 보인 통화쌍: USDCAD(16.3% 증가)
- 기존 ε-greedy 정책에서는 USDCAD가 손실(-4.1%)을 보였으나 행동 증강 사용 시 수익(12.2%)으로 전환됨
이 실험 결과는 제안된 금융 DRQN 알고리즘과 행동 증강 기법이 외환 시장에서 효과적임을 보여주며, 다양한 시장 조건과 거래 비용에서도 강건한 성능을 유지함을 입증합니다.
Conclusion
연구 성과
-
유연한 MDP 모델 제안: 신호 기반 트레이딩 전략을 위한 마르코프 의사결정 과정(MDP) 모델을 제안했으며, 이 모델은 모델 아키텍처와 학습 알고리즘에 최소한의 수정으로 확장 가능합니다.
-
DRQN 알고리즘 수정: 기존 심층 순환 Q-네트워크 알고리즘을 금융 트레이딩 환경에 더 적합하도록 수정했습니다.
- 무작위 탐색의 필요성을 줄이기 위한 행동 증강 기법 제안
- 가치 기반 딥 강화학습에서 사용되는 것보다 상당히 작은 리플레이 메모리 사용
-
실증적 성과: 12개 통화쌍에 대해 대부분의 시뮬레이션 설정에서 양의 결과를 달성했습니다.
- 거래 비용을 고려한 상태에서 순수 딥 강화학습 알고리즘으로 달성한 최초의 긍정적 결과
- 에이전트가 발견한 전략은 기준선과 낮거나 상관관계가 없음
-
직관에 반하는 발견: 스프레드를 약간 증가시키면 전체 성능이 향상된다는 사실을 발견했습니다.
- 절반 이상의 통화쌍에서 관찰된 현상
- 약간 높은 스프레드가 에이전트가 학습 과정에서 더 강건하고 신뢰할 수 있는 거래 전략을 발견하도록 강제함
- 그러나 스프레드를 더 넓히면 성능이 저하됨
향후 연구 방향
-
상태 공간과 행동 공간 확장:
- 다른 시장의 가격 데이터, 거시 데이터(정치 및 경제 뉴스, 경제 지표 등), 기본 데이터 등 더 많은 입력 특징 추가
- 포지션 크기 결정이나 지정가 주문 게시와 같은 더 자유로운 거래 결정을 에이전트에게 제공
-
다양한 거래 시나리오에 강화학습 적용:
- 고빈도 거래, 페어 트레이딩, 장기 주식 투자 등에 적용
- 투자자 요구에 맞는 다양한 전략을 결합한 포트폴리오 구성
-
분포적 강화학습 활용:
- 기대 수익 E[Q(s,a)]만 학습하는 대신 Q(s,a)의 전체 분포를 학습
- 벨만 방정식의 분포 변형을 통해 가능
- 기대 Q-값이 가장 높고 Q-값의 표준 편차가 가장 낮은 행동 선택 가능
- 이를 통해 샤프 비율이 가장 높은 행동을 선택하고, 현대 투자자에게 더 적합한 전략 구현
이 연구는 딥 강화학습을 금융 트레이딩에 적용하는 데 있어 중요한 진전을 이루었으며, 향후 더욱 확장된 상태 공간, 행동 공간 및 위험 조정 접근 방식을 통해 더 강력한 트레이딩 시스템을 개발할 가능성을 제시합니다.