RL 트레이딩 전략 학습 및 검증 과정 (2024-05-02)

Source

  • Basic Journals/Daily Journals/2024 갑진년/갑진년 123일, 5월 2일 목요일.md

Summary

강화학습(Reinforcement Learning) 기반의 알고리즘 트레이딩 전략을 학습하는 과정에서의 문제점과 인사이트를 기록한 일기입니다. 특히 보상 함수(Reward Scheme)와 행동 공간(Action Scheme)의 정의, 그리고 전반기 학습 데이터로 하반기 데이터를 검증할 때 발생하는 과적합 또는 전략 실패(손실)에 대한 의문과 10% 수익률 한계에 대한 고민을 담고 있습니다.

Key Points

  • 강화학습 트레이딩 모델의 보상 함수(Reward Scheme)로 ‘Position-Based Return(PBR)’ 사용
  • 행동 공간(Action Scheme)으로 ‘Buy, Sell, Hold(BSH)’ 전략 적용
  • 전반기 데이터 학습 후 하반기 데이터 검증 시 자본 손실 발생 문제 제기
  • 최적 전략이라 여겨지던 모델도 결국 10% 수익률 수준에서 정체되는 현상 관찰
  • 전략 결정 로직의 불명확성에 대한 학습자의 혼란 표현