2024-04-18 일지: RL 학습 환경 구성 및 시스템 아키텍처 구상

Source

  • Basic Journals/Daily Journals/2024 갑진년/갑진년 109일, 4월 18일 목요일.md

Summary

본 노트는 2024 년 4 월 18 일의 개인 일지로서, Duolingo 학습의 효능감 저하와 집안 정리 계획 등 일상적 기록과 함께, Ray RLlib 를 활용한 강화학습 (RL) 시스템 개발에 대한 기술적 고민을 담고 있다. 특히 새 SAC API 의 LSTM 미지원 문제로 PPO-LSTM 대안을 검토하고, 학습 (Training) 과 서빙 (Serving) 을 분리한 시스템 아키텍처 (클라이언트 - 모델서버 구조) 를 구상하는 과정을 기록하고 있다. 또한 llm2vec(ELLA) 관련 최신 동향을 간단히 언급하고 있다.

Key Points

  • Ray RLlib 의 새 SAC API 는 LSTM 을 지원하지 않아, 시계열 데이터 처리를 위해 PPO-LSTM 조합을 고려 중임.
  • RL 시스템 아키텍처를 학습 단계와 서빙 단계로 분리하여 설계: 클라이언트 (시세 조회/전처리/거래 반영) 와 모델서버 (추론 수행) 로 구성.
  • 실제 거래 환경에서는 시세 관측과 잔고 변화를 모두 관찰값 (Observation) 으로 반영해야 함을 인지함.
  • llm2vec 기반의 ELLA 모델이 아직 주류 적용 단계는 아님을 확인함.
  • 일상적으로 Duolingo 학습의 동기 부여 필요성과 창가 청소 및 물품 정리 계획을 수립함.