Trade-Agent 검증 및 스캘핑 전략 검토

Source

  • Ancom Workbench/Research/Stock Trader/trade-agent 검증.md

Summary

강화학습 기반 트레이딩 에이전트(trade-agent)의 ‘존버’ 현상 원인을 분석하고, 스캘핑 전략으로의 전환 가능성을 모색하는 과정입니다. 현재 1 시간 단위 데이터에서는 단기 매매가 아닌 장기 보유 행태가 관찰되었으며, 이는 managed-risk 전략의 파라미터(손익 비율, 기간 등)와 관련이 있을 것으로 추정됩니다. 또한 분 단위 학습의 타당성, 시뮬레이션 환경에서의 매매 로직(조건부 매매 제거, 오더 스펙 처리), 그리고 거래 화폐(Base/Quote) 기준과 수수료 계산 방식 등 구현상의 명확화가 필요한 사항들을 정리하고 있습니다.

Key Points

  • 현재 에이전트는 스캘핑 대신 장기 보유(존버) 행태를 보이며, 이는 학습 결과일 가능성이 높음
  • managed-risk 전략의 파라미터(손익 비율, 기간, 포트폴리오)와 액션 스페이스 구조가 행태에 미치는 영향 분석 필요
  • 1 시간 단위 데이터는 스캘핑에 부적절하므로 분 단위 학습 전환 고려 중
  • 시뮬레이션 환경에서 조건부 매매 로직 수정 및 오더 스펙(Order Spec) 처리 방식 재검토 필요
  • 거래 화폐 기준(Base/Quote), 총거래액 계산 방식(수수료 포함 여부), 매수/매수 시 Quantity 기준 명확화 필요