강화학습 기본 개념 정리 및 의문점
Source
Ancom Workbench/Research/Stock Trader/강화학습 관련.md
Summary
강화학습(Reinforcement Learning)의 핵심 구성 요소(Environment, State, Action, Reward)를 정의해야 할 항목으로 분류하고, 에피소드(Episode)의 종료 조건(T 고정 vs 조건부 종료) 및 할인 계수(Discounted Factor)의 의미에 대한 개념적 혼란을 기록한 학습 노트이다.
Key Points
강화학습의 기본 요소: Environment, State, Action set, Reward 정의 필요
에피소드(Episode) 개념: t=T 도달 또는 특정 리워드 미만 실패 시 종료
의문점 1: 에피소드 길이 T를 고정하는 것이 적절한지 여부
의문점 2: Discounted Factor가 클수록 과거 정보를 더 많이 참조하는지 확인 필요
SAC (Soft Actor-Critic) 강화학습 소개
RL 트레이딩 전략 학습 및 검증 과정 (2024-05-02)
RL 기반 주식 트레이딩 봇 설계: 에피소드 길이 및 데이터 고려사항
2022-02-17: 강화학습 및 지속적 학습 관련 자료 수집
강화학습 기반 암호화폐 자동매매 프로젝트 제안
RLHF(인간 피드백 기반 강화학습) 개요
TensorTrade RL 최적 하이퍼파라미터 설정 (2024-04-28)
리팩토링 요소
비트코인 상승장 구간 정의 및 데이터 수집 계획
AI 금융 및 알고리즘 트레이딩 참고 문헌
FreqAI 설정 및 커스텀 데이터 활용 가능성 탐구
TD3 기반 주식 트레이딩 알고리즘 설계
2024-04-17 일기: RL 학습 및 시스템 최적화 노트
강화학습 봇 재고
Trade-Agent 검증 및 스캘핑 전략 검토
Stock Trader 이벤트 리스너 및 시뮬레이션 설정
TensorTrade 2.0 적용 및 RL 에이전트 디버깅
KOF99 네스츠 데이터 기반 AI 학습 아이디어
2024-05-09 일기: Duolingo, 미쿠복싱, 강화학습 디버깅
어제를 사는 힘 (2025-12-19)
Ray RLlib PPO 트레이딩 환경 초기화 오류 (Gymnasium API 호환성)
2024-05-07 일기: 플로이드-워셜 알고리즘 학습
2024-04-19 일기: 과소비, 가족 지원, 강화학습(Ray RLlib) 학습
TentTrade 2.0 마이그레이션 장애요인 및 핵심 요구사항
데이터 랜덤픽 구현 및 라이브 피드 아키텍처 설계
2024-04-18 일지: RL 학습 환경 구성 및 시스템 아키텍처 구상
스트림 구현 및 아키텍처 고민
Tensortrade의 Gymnasium 및 Ray 호환성 개선
TensorTrade 라이브 피드 구현의 기술적 장벽과 개발자 심리
Rustdesk 연동 성공 및 Tailscale 활용
임인년 189일, 7월 8일 금요일
WSL)
RLLib 얼라인: 학습 코드 검토 및 Google Trends 데이터 검증
청자 기술 학습
2024-03-14 일기: 듀오링고 학습 및 yt-dlp 프록시 구축
2024-05-14 일기: AI 생존 고민 및 디퓨전 모델 학습 특성
RSVP의 어원 및 2024년 3월 26일 일기
2021-07-06 일기: 전기자전거 및 라즈베리파이 NAS 구상
2023 년 1 월 3 일 일기: 개인적 반추 및 지식 증류 학습
2024-09-26: AI 연구 전략, Llama 3.2 및 로컬 LLM 도구
2024-04-30 일기: Jetson Nano LLM 실험과 개인적 소감
AI 에이전트 논의
2024-05-17 일기: Llama 3 양자화 가이드 및 일본어 데이터셋 수집
AncomBase 아이디어 백로그: 가격 예측, 드걸 부활, 서적관리
2025-06-09 일기: 미루기 습관 개선, LLM 추론 한계, 로컬 LLM 서빙
갑진년 15일, 1월 15일 월요일
AI 프리랜서 관련 참고 링크
가위바위보 기반 AI 소개팅 게임 앱
자비에 NX 구매 고민 및 가격 불만
2024-07-25 일기: 정보 정제와 뉴스 타임라인
AI 채팅 및 음성 도구 목록
자바스크립트 및 머신러닝 관련 도서 목록
Dustin Tran 관련 트윗 참고
ChatGPT-4o, 음성인식 및 관련 기술 탐색
Related Notes
루리웹 및 Rebrn 링크 모음 (2023-10-20)
2023-10-20T05_34_14.038+09_00
Z-Image 기술 동향 및 AI 도구 메모
CG 링크 목록
2024-05-27 일기: 디지털 리터러시 교육 및 생활 습관 성찰
2022-02-16 일기: 업무 성찰 및 Continual Learning 참고
2021-03-22 일기: 생활 기록 및 기술적 고민
2024-10-14 일기: 육체 관리, 60갑자 계산법, LLM 파인튜닝 기술 동향
독서 목록 (Archive)
2019-02-26: 전민동 거주 반 년 및 출구 전략 고민
2021-01-18 일기: 워쉽, 독서, 젯슨 나노 문제
GitHub Copilot Chat Rules
빅데이터의 적용 분야 및 모델링 통찰
현택의 블록체인 기반 데이터 거래 모델 고찰
로컬 AI 환경 구축과 그 의미에 대한 성찰
2025-05-12 일기: 대전 나들이 및 GPU 구매 고민
2020-12-17: 재택근무 어려움, 강화학습 실패, 라즈베리파이 하드웨어 문제
축공강)
네트워크 전공자 필수 지식 목록 (초안)
2025-03-11 일기: 클러스터 운영 주의사항 및 개인 기록
2023 년 2 월 3 일 일기: 1 월 회고 및 최근 생활 기록
Fine-tuning 개념 정리
GPU 오퍼레이터 설치 및 Air-gapped 환경 구축 준비
멀티뷰 학습 및 vLLM 서빙 엔진 탐색
Whisper 실시간 스트리밍 솔루션 탐색
KPI 개념 정리
Triton Custom Backend 학습 계획 및 모델 웜업 개념 정리
Deview 2023 1일차 키노트 및 세션 요약 (네이버, 쏘카, Clova OCR)
Qwen3.5-122B 로컬 배포 및 Jetson Thor 업그레이드 기록
Edge 디바이스 LLM 배포 연구
개인 위키 시스템 구축 요구사항 및 기술 스택 고려사항
premi.st 와 개인 블로그, 사이트
Vault Home
2024-05-19 일기: 라이코스 프로젝트 검토 및 문재인 정부 회고록 독서감상
Stock Trader 데이터 준비 및 아키텍처 검토
2024-01-23 일기: 일상 수행 및 글쓰기 고민
CD 파이프라인 구축 계획
폰 데이터 이전 및 정리 체크리스트
2020-07-03 일기: 생활패턴 및 미밴드 5
프롬프트 예제 (Lunatic Theme)
WFST 최적화 및 결정화 알고리즘 검토
2025 년 10 월 20 일 일기: 가사 지원 및 생활 기록
Jetson Nano 구매 의도 및 라즈베리 파이 4 구동 고민
Stable Diffusion 관련 리소스 및 프롬프트 예시
Jetson Nano 2GB SDK Manager 및 USB 인식 문제
2024-05-08 일기 및 기술 메모
Stable Diffusion 파인튜닝 및 LLM 환경 구축 기록
스크립트 기반 자동 타이핑 기계 아이디어
에피피 (EPF) 관련 노트
금융상품 데이터 레거시 문제 및 ChatGPT 온프레미스 도입 필요성
Jetson Nano 클러스터 기반 TensorTrade 병렬 학습 환경 구축
하코네 여행 경비 및 일본어 학습
2024-02-06 일기: 자기 관리와 생활 기록
성묘 및 강화도 방문 기록 (2023.01.21)
Raspberry Pi 클러스터 구축 및 스토리지 고민
Triton-Kaldi 디코딩 아키텍처 분석 및 iVector 적응 개념 탐구
CentOS 7 기반 NVIDIA GPU 환경 구축 및 모델 배포 준비
2026-01-12 일지: Docker 빌드 및 NFS 언마운트 팁
2021-05-31 일기: 직장, 성묘, 기계학습 환경 구축
트레이더봇 부분체결 버그 및 LILAC 구현 고민
프로젝트 일람 (책기록기, 이클립스, 심플렛저)
맞춤법 데이터 구조 및 토크나이징 전략 논의
Parquet 오디오 데이터 추출 및 전처리 스크립트
RustDesk Self-Hosted Configuration
2026-04-22 일기: Rust 학습 고민 및 식물 분양 논의
Raspberry Pi 3 기반 IP 카메라 스트리밍 및 AI 추론 아키텍처
2023-01-12 일기: 테라 개발사 논란 및 WSL 환경 설정
편의점 강도 대비 자동 조준 CCTV 구상
어제를 사는 힘 (2026-05-26)