강화학습 기본 개념 정리 및 의문점

Source

  • Ancom Workbench/Research/Stock Trader/강화학습 관련.md

Summary

강화학습(Reinforcement Learning)의 핵심 구성 요소(Environment, State, Action, Reward)를 정의해야 할 항목으로 분류하고, 에피소드(Episode)의 종료 조건(T 고정 vs 조건부 종료) 및 할인 계수(Discounted Factor)의 의미에 대한 개념적 혼란을 기록한 학습 노트이다.

Key Points

  • 강화학습의 기본 요소: Environment, State, Action set, Reward 정의 필요
  • 에피소드(Episode) 개념: t=T 도달 또는 특정 리워드 미만 실패 시 종료
  • 의문점 1: 에피소드 길이 T를 고정하는 것이 적절한지 여부
  • 의문점 2: Discounted Factor가 클수록 과거 정보를 더 많이 참조하는지 확인 필요