인공지능 기반 암호화폐 트레이딩 전략: 과적합 최소화 기법과 강화학습의 활용
AI-Based Cryptocurrency Trading Strategies: Application of Overfitting Minimization and Reinforcement Learning
권도윤(서울과학기술대학교); 심민규(서울과학기술대학교)
24권 3호, 1~36쪽
초록
본 연구는 심층강화학습(DRL)과 강건한 시계열 검증 기법을 통합하여 알고리즘 검증 과적합 (overfitting)을 최소화하는 새로운 암호화폐 트레이딩 접근법을 제안한다. 근접 정책 최적화(Proximal Policy Optimization, PPO) 알고리즘과 조합적 정제 교차검증(Combinatorial Purged Cross Validation, CPCV)을 결합한 트레이딩 전략을 통해 과적합 문제 해결을 시도하였다. 트레이딩 환경은 마코프 의사결정 과정(Markov Decision Process, MDP)으로 모델링하였으며, 상태 공간은 계좌 잔고, 암호화폐 보유량, 기술적 지표로 구성하였다. PPO 에이전트는 이러한 상태 정보를 기반으로 트레이딩 결정을 최적화하며, 누적 수익률 극대화를 목표로 한다. CPCV는 시간 순서를 유지하며 시계열 데이터를 분할하고, 훈련 세트와 검증 세트 사이에 정보 누수(information leakage) 방지를 위한 간격을 두어 과적합 위험을 줄인다. 2024년 1월 25일부터 3월 20일까지의 비트코인 가격 데이터로 평가한 결과, 제안된 방법(CPCV)은 -7.57%의 누적 수익률을 달성하여, 단순 보유 전략(Buy and Hold, -12.14%)을 상회하였다. 또한 1.219%의 최대 낙폭을 기록하여 Walk-Forward(1.789%)와 K-Fold 교차 검증(1.793%) 접근법보다 우수한 위험 관리 능력을 보였다. 하락장과 상승장 기간의 추가 테스트를 통해 다양한 시장 조건에서 전략의 강건성을 검증하였다. 이는 DRL과 CPCV의 통합이 암호화폐 트레이딩에서 알고리즘 검증 과적합을 효과적으로 최소화하고 실제 성능을 향상시킬 수 있음을 시사한다. 본 연구는 DRL 기반 트레이딩 시스템의 발전에 기여하며, 과적합 위험 완화를 위한 강건한 검증 기법의 중요성을 강조한다. 향후 연구에서는 이 접근법을 다른 금융 시장에 적용하고, 알고리즘 트레이딩에서 DRL 알고리즘과 특성 공학의 추가적인 개선 방안을 모색할 수 있을 것이다.
Abstract
This study proposes a novel cryptocurrency trading approach integrating Deep Reinforcement Learning (DRL) with Combinatorial Purged Cross Validation (CPCV) to minimize algorithm validation overfitting. Using a Proximal Policy Optimization (PPO) agent within a Markov Decision Process (MDP) framework, the strategy aims to maximize returns based on account balance, holdings, and technical indicators. CPCV, featuring purged splits and gaps, ensures robust time-series validation. Evaluated on Bitcoin data (Jan 25 - Mar 20, 2024), the CPCV-based strategy achieved a -7.57% cumulative return, outperforming Buy and Hold (-12.14%). It also demonstrated superior risk management with a lower Maximum Drawdown (1.219%) compared to walk forward (1.789%) and K-Fold (1.793%) methods. Robustness was confirmed through tests in varying market conditions. The findings highlight that combining DRL with CPCV effectively mitigates overfitting and enhances practical trading performance. This work contributes to DRL-based trading systems, emphasizing robust validation. Future research could extend this approach to other markets and refine DRL algorithms.
- 발행기관:
- 한국금융공학회
- 분류:
- 경영학