2024-04-17 일기: RL 학습 및 시스템 최적화 노트

Source

  • Basic Journals/Daily Journals/2024 갑진년/갑진년 108일, 4월 17일 수요일.md

Summary

이 노트는 2024 년 4 월 17 일의 개인 일기 형식으로, 강화학습 (RL) 알고리즘 (DQN, PPO, SAC, HER) 의 한계와 특징, 정규화의 중요성 등을 정리한 학습 노트와, 시스템 프로파일링 및 병목 구간 탐지를 위한 기술적 읽을거리 링크를 포함하고 있다. 또한 일상적인 구매 내역과 하드웨어 교체 계획 등 잡다한 메모가 혼재되어 있다.

Key Points

  • 강화학습 알고리즘 비교: DQN(샘플 효율성 높음, 학습 느림), PPO/A2C, SAC, HER(목표 달성 실패 시 다른 목표 활용) 의 특징과 한계 (샘플 비효율, 보상 함수 설계 난이도, 불안정성) 정리
  • RL 학습 팁: Observation space 의 정규화 (Normalization) 가 매우 중요하며, HER 사용 시 배치 크기의 중요성 언급
  • 시스템 최적화: 프로파일링을 통한 리소스 사용량 분석 및 병목 구간 탐지, 함수 후킹을 통한 문제 해결 사례 (GTA Online 로딩 시간 단축 예시) 참고
  • 일상/하드웨어: 육개장 소진 계획, 차량용 블루투스 리시버/노이즈 필터 구매, CPU 교체 계획, 브리타 필터 구매 필요성 등