SAC (Soft Actor-Critic) 강화학습 소개

Source

Ancom Workbench/Research/AI/2023-10-20T05_34_19.966+09_00.md

Summary

Slideshare 기반의 ‘3분 강화학습 순한맛’ 시리즈 중 SAC(Soft Actor-Critic) 알고리즘의 소개 자료입니다.

Key Points

강화학습 알고리즘인 SAC(Soft Actor-Critic)의 기본 개념 소개
Slideshare 형식의 짧은 학습 자료 (3분 순한맛 시리즈)

2022-02-17: 강화학습 및 지속적 학습 관련 자료 수집
강화학습 기본 개념 정리 및 의문점
2020-06-25 일기: 피로감 및 SAC 구현 의지
SAC 알고리즘의 GPU 최적화 및 성능 병목 분석
데이터 랜덤픽 구현 및 라이브 피드 아키텍처 설계
강화학습 기반 암호화폐 자동매매 프로젝트 제안
2024-04-17 일기: RL 학습 및 시스템 최적화 노트
SAC 통화 요약: 추출형 vs 생성형 요약 전략 및 평가 지표
2024-05-09 일기: Duolingo, 미쿠복싱, 강화학습 디버깅
TensorTrade 2.0 적용 및 RL 에이전트 디버깅
RL 트레이딩 전략 학습 및 검증 과정 (2024-05-02)
RLHF(인간 피드백 기반 강화학습) 개요
TensorTrade RL 최적 하이퍼파라미터 설정 (2024-04-28)
Trade-Agent 검증 및 스캘핑 전략 검토
가치 있는 발화 추출의 어려움과 SAC 방향성 고민
RL 기반 주식 트레이딩 봇 설계: 에피소드 길이 및 데이터 고려사항
FreqAI 설정 및 커스텀 데이터 활용 가능성 탐구
TD3 기반 주식 트레이딩 알고리즘 설계
비트코인 상승장 구간 정의 및 데이터 수집 계획
3i4k 데이터 정제 전략 및 SAC 프로젝트 아키텍처 정의
AI 금융 및 알고리즘 트레이딩 참고 문헌
강화학습 봇 재고
Stock Trader 이벤트 리스너 및 시뮬레이션 설정
KOF99 네스츠 데이터 기반 AI 학습 아이디어
Ray RLlib PPO 트레이딩 환경 초기화 오류 (Gymnasium API 호환성)
TentTrade 2.0 마이그레이션 장애요인 및 핵심 요구사항
2024-04-18 일지: RL 학습 환경 구성 및 시스템 아키텍처 구상
스트림 구현 및 아키텍처 고민
2024-05-07 일기: 플로이드-워셜 알고리즘 학습
TensorTrade 라이브 피드 구현의 기술적 장벽과 개발자 심리
Rustdesk 연동 성공 및 Tailscale 활용
Tensortrade의 Gymnasium 및 Ray 호환성 개선
임인년 189일, 7월 8일 금요일
WSL)
2024-04-19 일기: 과소비, 가족 지원, 강화학습(Ray RLlib) 학습
2024-03-14 일기: 듀오링고 학습 및 yt-dlp 프록시 구축
ReturnZero Day 427: SAC 로직 기획 및 Highlighter 구현 방향
RLLib 얼라인: 학습 코드 검토 및 Google Trends 데이터 검증
청자 기술 학습
2024-05-14 일기: AI 생존 고민 및 디퓨전 모델 학습 특성
2024-05-17 일기: Llama 3 양자화 가이드 및 일본어 데이터셋 수집
RSVP의 어원 및 2024년 3월 26일 일기
AncomBase 아이디어 백로그: 가격 예측, 드걸 부활, 서적관리
2024-04-30 일기: Jetson Nano LLM 실험과 개인적 소감
2023 년 1 월 3 일 일기: 개인적 반추 및 지식 증류 학습
2024-09-26: AI 연구 전략, Llama 3.2 및 로컬 LLM 도구
AI 에이전트 논의
AI 프리랜서 관련 참고 링크
2024-07-25 일기: 정보 정제와 뉴스 타임라인
AI 채팅 및 음성 도구 목록
자바스크립트 및 머신러닝 관련 도서 목록
가위바위보 기반 AI 소개팅 게임 앱
ChatGPT-4o, 음성인식 및 관련 기술 탐색
갑진년 15일, 1월 15일 월요일
Related Notes
루리웹 및 Rebrn 링크 모음 (2023-10-20)
2023-10-20T05_34_14.038+09_00
Dustin Tran 관련 트윗 참고
CG 링크 목록
빅데이터의 적용 분야 및 모델링 통찰
GitHub Copilot Chat Rules
네트워크 전공자 필수 지식 목록 (초안)
독서 목록 (Archive)
Deview 2023 1일차 키노트 및 세션 요약 (네이버, 쏘카, Clova OCR)
축공강)
premi.st 와 개인 블로그, 사이트
Z-Image 기술 동향 및 AI 도구 메모
Vault Home
자비에 NX 구매 고민 및 가격 불만
현택의 블록체인 기반 데이터 거래 모델 고찰
에피피 (EPF) 관련 노트
스크립트 기반 자동 타이핑 기계 아이디어
2022-02-16 일기: 업무 성찰 및 Continual Learning 참고
2025-06-09 일기: 미루기 습관 개선, LLM 추론 한계, 로컬 LLM 서빙
WFST 최적화 및 결정화 알고리즘 검토
2021-01-18 일기: 워쉽, 독서, 젯슨 나노 문제
체인 크로니클 계정 및 ID 목록
Stock Trader 데이터 준비 및 아키텍처 검토
Whisper 실시간 스트리밍 솔루션 탐색
2024-10-14 일기: 육체 관리, 60갑자 계산법, LLM 파인튜닝 기술 동향
프로젝트 Bled 중단 및 SAC 프로젝트 집중
옵셔널 구문 설계
연구 아이템 (KAIST MNLab)
로컬 AI 환경 구축과 그 의미에 대한 성찰
2024-05-27 일기: 디지털 리터러시 교육 및 생활 습관 성찰
WFST 엔진 구현 및 토큰 파싱 로직 설계
위키 페이지 관계 시각화 및 Fisheye 인터페이스
맞춤법 데이터 구조 및 토크나이징 전략 논의
WFST 목록화 및 의존성 구문 분석 탐색
멀티뷰 학습 및 vLLM 서빙 엔진 탐색
Day 365: VTS Trial 실험 결과 및 SAC 킥오프
금융상품 데이터 레거시 문제 및 ChatGPT 온프레미스 도입 필요성
WFST 테스트 코드 및 규칙 개발 (Day 391)
Day 385 (2022-07-20): WFST 개발 및 휴가 잔여일 계산
폰 데이터 이전 및 정리 체크리스트
2021-03-22 일기: 생활 기록 및 기술적 고민
2019-02-26: 전민동 거주 반 년 및 출구 전략 고민
프로젝트 일람 (책기록기, 이클립스, 심플렛저)
CD 파이프라인 구축 계획
3i4k 데이터셋을 활용한 화행분류 Feasibility 검토
수열 패턴 및 제곱근 근사 공식 탐구 (2019)
Excalidraw Drawing (2026-01-01)
Qwen3.5-122B 로컬 배포 및 Jetson Thor 업그레이드 기록
Stable Diffusion 관련 리소스 및 프롬프트 예시
NLP 라벨링 도구: 예측 및 비교 스크립트
리팩토링 요소
Highlighter 구조 및 패턴 감별 방식 고찰
Fine-tuning 개념 정리
Day 390: 핵심성분 분석 및 WFST 테스트 진행
WFST 어미 인식 개선 및 gop-decoder S3 연동 계획
GPU 오퍼레이터 설치 및 Air-gapped 환경 구축 준비
Parquet 오디오 데이터 추출 및 전처리 스크립트
2021-07-06 일기: 전기자전거 및 라즈베리파이 NAS 구상
2020-12-17: 재택근무 어려움, 강화학습 실패, 라즈베리파이 하드웨어 문제
프롬프트 예제 (Lunatic Theme)
Composite rule: 해시 검증의 한계와 조합 폭발 문제
GOP 개발 및 기술적 고민 (2022-07-13)
Raspberry Pi 3 기반 IP 카메라 스트리밍 및 AI 추론 아키텍처
2024-01-23 일기: 일상 수행 및 글쓰기 고민
Stable Diffusion 파인튜닝 및 LLM 환경 구축 기록
ReturnZero 프로젝트 관련 기술 링크 모음
Triton Ensemble 구현 및 NLP4STT 띄어쓰기 이슈
ReturnZero: WFSTClassifier 리팩토링 및 명명 규칙 정리
WFST 분류기 및 복합 클래스 우선순위 처리
WFST 엔진 구현 및 Commitment 작업 (Day 392)
BSWACA 오프로딩 전략 및 리소스 할당 고민
Jetson Nano 클러스터 기반 TensorTrade 병렬 학습 환경 구축
RustDesk Self-Hosted Configuration
2025 년 6 월 26 일 일기: 피지낭종 수술 및 AI 도구 테스트
하코네 여행 경비 및 일본어 학습
어제를 사는 힘 (2025-12-19)
NLP4STT 프로젝트 마무리 및 팀원 이탈 회고
업라이즈 AI바우처: 금융 콘텐츠 요약 서비스 및 NLP4STT 기술적 장애물
2022-12-26 회사 근황 및 NLP 기술 검토
Rule-based NER 및 Semantic Role Labeling 구현 전략
WFST 규칙 최적화 및 성능 평가 (Day 404)
WFST 코드 보완 및 분류 모델 성능 평가 (Day 400)
WFST 인터페이스 및 파인튜닝 진행 상황 (Day 383)
FastAPI 학습
RAPA 과제: AI 기반 음성인식 후보정 및 데이터셋 구축
2025-03-11 일기: 클러스터 운영 주의사항 및 개인 기록
2024-09-25 일기: 목표 설정, 중도 포기 심리, 지방 의료, AI 모델 목록
트레이더봇 부분체결 버그 및 LILAC 구현 고민
개인 위키 시스템 구축 요구사항 및 기술 스택 고려사항
팀벨 문의 - 웹소켓-gRPC 연동
회의록 요약(Action Item 추출) 연구 서베이 및 난점 분석
2025-05-12 일기: 대전 나들이 및 GPU 구매 고민
2024-05-19 일기: 라이코스 프로젝트 검토 및 문재인 정부 회고록 독서감상
한중일 한자 발음 매핑 및 데이터베이스 구축 구상
STT-LLM-TTS 챗봇 기술 스택 및 설정 초안
NLU 기술 동향 및 전시회 메모
다듬이 마무리 (Day 702)
rt-itn-jp 코드 모델 및 WFST 구현 계획
일본어 ASR 얼라인 및 ITN 파이프라인 개발 (Day 635)
rt-dadumi aligner
맞춤법 검사 자동화 봇 및 데이터 파싱 로직
라벨링 가이드라인 및 카테고리 정의 (Day 478)
미팅 요약 서베이 및 화행 분석
약속) 성능 분석 및 정제 전략
어미 처리 실험
Recall) 이해 및 HuggingFace Transformers 학습 코드 분석
NLP 팀 회의 및 다음 작업 아이템 (2022-05-12)
dadumi lang 포함
WSL 환경 구축 및 AI 개발 스택 설정
2026-01-12 일지: Docker 빌드 및 NFS 언마운트 팁
GPT-SoVITS 감정 표현의 무작위성 및 Gemini 3 평가
Edge 디바이스 LLM 배포 연구
CLI 도구 숙달을 통한 업무 효율성 향상
2020-07-03 일기: 생활패턴 및 미밴드 5
편의점 강도 대비 자동 조준 CCTV 구상
LLM 엔지니어링 및 한국어 모델 학습 환경 구축 참고 자료
Day 931. 2024-01-18
팀벨(Timbel) 개발 환경 구축 및 라이선스 발급 기록
Day 750: Helm Chart, Pronaia Proxy Logic, and Docker Build Tasks
CentOS 7 기반 NVIDIA GPU 환경 구축 및 모델 배포 준비
어제를 사는 힘 (2026-05-26)
FST 기반 분류기 구조 및 코드 리팩토링 (Day 435)
대화 발화 병합 및 규칙 기반 분류 파이프라인 설계
pynini 학습 노트
ReturnZero Day 1756: PVI 및 일본어 ASR 개선 이슈
2025-10-16 업무: 일본어 STT 실험 및 KISA 프로젝트 준비
ReturnZero Day 147: 쿠폰함 개발 및 Go 에러 처리 패턴 고민
2024-09-19 업무: 일본어 STT 모델 튜닝 및 Prefix Decoder 디버깅
폐쇄망(Air-gapped) Kubernetes 환경 구축 및 도구 평가
코드 리뷰 진행
2023 년 2 월 3 일 일기: 1 월 회고 및 최근 생활 기록
polyglot-ko 서빙 준비도

AncomWiki

탐색기

SAC (Soft Actor-Critic) 강화학습 소개

SAC (Soft Actor-Critic) 강화학습 소개

Source

Summary

Key Points

그래프 뷰

목차

AncomWiki

탐색기

SAC (Soft Actor-Critic) 강화학습 소개

SAC (Soft Actor-Critic) 강화학습 소개

Source

Summary

Key Points

Related

그래프 뷰

목차