RLHF(인간 피드백 기반 강화학습) 개요

Source

Basic Journals/Daily Journals/2022 임인년/임인년 363일, 12월 29일 목요일.md

Summary

이 노트는 ChatGPT 등에 적용된 RLHF(Reinforcement Learning from Human Feedback)의 개념과 3단계 학습 프로세스(사전학습, 보상모델 학습, 강화학습 파인튜닝)를 요약한다. 주요 연구기관(OpenAI, Anthropic, DeepMind)의 모델 적용 사례와 파인튜닝의 선택적 필요성, 안전성 기준(harmless 등) 부여 방식을 언급한다.

Key Points

RLHF 정의: 사람의 응답 피드백을 통해 학습하는 강화학습 기법
3단계 프로세스: 1) LM 사전학습, 2) 데이터 수집 및 보상모델 학습, 3) LM의 강화학습 기반 파인튜닝
기관별 접근: OpenAI(InstructGPT), Anthropic(다양한 규모 Transformer), DeepMind(Gopher) 등
파인튜닝의 역할: 필수 아님(선택적), 하지만 ‘유용함/정직함/무해함’ 등의 가치 정렬에 기여

강화학습 기반 암호화폐 자동매매 프로젝트 제안
강화학습 기본 개념 정리 및 의문점
RL 기반 주식 트레이딩 봇 설계: 에피소드 길이 및 데이터 고려사항
RL 트레이딩 전략 학습 및 검증 과정 (2024-05-02)
Stable Diffusion 파인튜닝 및 LLM 환경 구축 기록
AI 금융 및 알고리즘 트레이딩 참고 문헌
TensorTrade RL 최적 하이퍼파라미터 설정 (2024-04-28)
2024-04-17 일기: RL 학습 및 시스템 최적화 노트
2022-02-17: 강화학습 및 지속적 학습 관련 자료 수집
비트코인 상승장 구간 정의 및 데이터 수집 계획
SAC (Soft Actor-Critic) 강화학습 소개
TD3 기반 주식 트레이딩 알고리즘 설계
FreqAI 설정 및 커스텀 데이터 활용 가능성 탐구
KOF99 네스츠 데이터 기반 AI 학습 아이디어
2024-05-09 일기: Duolingo, 미쿠복싱, 강화학습 디버깅
강화학습 봇 재고
Trade-Agent 검증 및 스캘핑 전략 검토
Stock Trader 이벤트 리스너 및 시뮬레이션 설정
가위바위보 기반 AI 소개팅 게임 앱
어제를 사는 힘 (2025-12-19)
TensorTrade 2.0 적용 및 RL 에이전트 디버깅
2024-05-07 일기: 플로이드-워셜 알고리즘 학습
Ray RLlib PPO 트레이딩 환경 초기화 오류 (Gymnasium API 호환성)
2024-04-19 일기: 과소비, 가족 지원, 강화학습(Ray RLlib) 학습
RAPA 과제: AI 기반 음성인식 후보정 및 데이터셋 구축
2024-04-18 일지: RL 학습 환경 구성 및 시스템 아키텍처 구상
TentTrade 2.0 마이그레이션 장애요인 및 핵심 요구사항
데이터 랜덤픽 구현 및 라이브 피드 아키텍처 설계
스트림 구현 및 아키텍처 고민
Tensortrade의 Gymnasium 및 Ray 호환성 개선
TensorTrade 라이브 피드 구현의 기술적 장벽과 개발자 심리
Rustdesk 연동 성공 및 Tailscale 활용
임인년 189일, 7월 8일 금요일
WSL)
청자 기술 학습
2024-03-14 일기: 듀오링고 학습 및 yt-dlp 프록시 구축
2024-05-14 일기: AI 생존 고민 및 디퓨전 모델 학습 특성
2024-09-26: AI 연구 전략, Llama 3.2 및 로컬 LLM 도구
CentOS 7 기반 NVIDIA GPU 환경 구축 및 모델 배포 준비
RLLib 얼라인: 학습 코드 검토 및 Google Trends 데이터 검증
AncomBase 아이디어 백로그: 가격 예측, 드걸 부활, 서적관리
2024-04-30 일기: Jetson Nano LLM 실험과 개인적 소감
2024-05-17 일기: Llama 3 양자화 가이드 및 일본어 데이터셋 수집
Raspberry Pi 3 기반 IP 카메라 스트리밍 및 AI 추론 아키텍처
ChatGPT-4o, 음성인식 및 관련 기술 탐색
AI 프리랜서 관련 참고 링크
AI 채팅 및 음성 도구 목록
빅데이터의 적용 분야 및 모델링 통찰
Raspberry Pi 3 기반 k3s 및 스토리지 서비스 구축 계획
Jetson Nano 클러스터 기반 TensorTrade 병렬 학습 환경 구축
자바스크립트 및 머신러닝 관련 도서 목록
Related Notes
Dustin Tran 관련 트윗 참고
루리웹 및 Rebrn 링크 모음 (2023-10-20)
CG 링크 목록
현택의 블록체인 기반 데이터 거래 모델 고찰
2023-10-20T05_34_14.038+09_00
AI 에이전트 논의
2025-06-09 일기: 미루기 습관 개선, LLM 추론 한계, 로컬 LLM 서빙
2023 년 1 월 3 일 일기: 개인적 반추 및 지식 증류 학습
Z-Image 기술 동향 및 AI 도구 메모
축공강)
Qwen3.5-122B 로컬 배포 및 Jetson Thor 업그레이드 기록
CD 파이프라인 구축 계획
Whisper 실시간 스트리밍 솔루션 탐색
GitHub Copilot Chat Rules
로컬 AI 환경 구축과 그 의미에 대한 성찰
2024-10-14 일기: 육체 관리, 60갑자 계산법, LLM 파인튜닝 기술 동향
자비에 NX 구매 고민 및 가격 불만
스크립트 기반 자동 타이핑 기계 아이디어
RAPA 과제: AI 기반 음성인식 후보정 및 데이터셋 구축
갑진년 15일, 1월 15일 월요일
2024-07-25 일기: 정보 정제와 뉴스 타임라인
네트워크 전공자 필수 지식 목록 (초안)
독서 목록 (Archive)
개인 위키 시스템 구축 요구사항 및 기술 스택 고려사항
프롬프트 예제 (Lunatic Theme)
GPU 오퍼레이터 설치 및 Air-gapped 환경 구축 준비
Stable Diffusion 관련 리소스 및 프롬프트 예시
Vault Home
멀티뷰 학습 및 vLLM 서빙 엔진 탐색
Edge 디바이스 LLM 배포 연구
금융상품 데이터 레거시 문제 및 ChatGPT 온프레미스 도입 필요성
폐쇄망(Air-gapped) Kubernetes 환경 구축 및 도구 평가
WSL 환경 구축 및 AI 개발 스택 설정
RAPA 과제: AI 기반 음성인식 후보정 및 데이터셋 구축
RustDesk Self-Hosted Configuration
2026-01-12 일지: Docker 빌드 및 NFS 언마운트 팁
premi.st 와 개인 블로그, 사이트
2020-12-17: 재택근무 어려움, 강화학습 실패, 라즈베리파이 하드웨어 문제
방화벽 문제 해결 시도
nerdctl 및 BuildKit 설정 가이드
Day 1132: Airgap 환경 구축 및 GPU Operator 배포 시도
폰 데이터 이전 및 정리 체크리스트
Jetson Nano 2GB SDK Manager 및 USB 인식 문제
Stable Diffusion WebUI Docker 환경 구축 및 에러 해결 기록
2022-02-16 일기: 업무 성찰 및 Continual Learning 참고
Raspberry Pi 클러스터 구축 및 스토리지 고민
2021-01-18 일기: 워쉽, 독서, 젯슨 나노 문제
Jetson Nano 구매 의도 및 라즈베리 파이 4 구동 고민
Jetson Nano에서 Stable Diffusion 실행 환경 구성 시도
2024-05-27 일기: 디지털 리터러시 교육 및 생활 습관 성찰
Greedy Confidence 및 Entropy 기반 신뢰도 추론 아키텍처
LLM 엔지니어링 및 한국어 모델 학습 환경 구축 참고 자료
MWW 스크럼: AWS 인스턴스 시뮬레이션 환경 구축
Realtek 네트워크 드라이버 설치 및 Netplan DHCP 설정 가이드
2021-07-06 일기: 전기자전거 및 라즈베리파이 NAS 구상
Stock Trader 데이터 준비 및 아키텍처 검토
에피피 (EPF) 관련 노트
Docker-in-Docker (DinD) 환경 설정 및 패턴 이스케이프 이슈
CUDA install
Abomikluster: 이종 아키텍처 Kubernetes 클러스터 구성
AI 이미지 생성 도구 및 설정 노트 (2024-07-30)
WFST 최적화 및 결정화 알고리즘 검토
인프라 환경 재정비 및 NAS 스토리지 구성
Raspberry Pi 4 클러스터 (K3s) 구축 및 운영 기록
Deview 2023 1일차 키노트 및 세션 요약 (네이버, 쏘카, Clova OCR)
NVIDIA Jetson 환경에서 vLLM 실행 시 GPU 메모리 캐시 정리 및 모델 로딩 문제
RSVP의 어원 및 2024년 3월 26일 일기
2024-01-23 일기: 일상 수행 및 글쓰기 고민
임인년 148일, 5월 28일 토요일.
2019-02-26: 전민동 거주 반 년 및 출구 전략 고민
Illustrious XL 및 일관성 있는 캐릭터 생성 워크플로우
오일 파스텔 DIY 염료 제작법
맞춤법 데이터 구조 및 토크나이징 전략 논의
Nextcloud Kubernetes Ingress 설정
Node Exporter 설치 및 학습 환경 메모리 문제
리눅스 LVM 볼륨 확장 절차
프로젝트 일람 (책기록기, 이클립스, 심플렛저)
편의점 강도 대비 자동 조준 CCTV 구상
일본어 TTS 기반 학습 및 주소 전사 실험 노트
Kaldi 기반 GoP(Goodness of Pronunciation) 구현 분석 및 코드 탐색
RAPA 과제: AI 기반 음성인식 후보정 및 데이터셋 구축
Rocky Linux 환경 Docker 및 Triton Server 이미지 설정
팀벨(Timbel) 개발 환경 구축 및 라이선스 발급 기록
Envoy 로드밸런싱 아키텍처 재고 및 GPU 운영 환경 정리
Parquet 오디오 데이터 추출 및 전처리 스크립트
2021-03-22 일기: 생활 기록 및 기술적 고민
2023 계묘년 다짐: 5가지 덕목 기반 목표 설정
AICT 문장 띄어쓰기 벤치마크 및 워커 컨테이너 테스트
어제를 사는 힘 (2026-05-26)
어제를 사는 힘 (2025-02-12)

AncomWiki

탐색기

RLHF(인간 피드백 기반 강화학습) 개요

RLHF(인간 피드백 기반 강화학습) 개요

Source

Summary

Key Points

그래프 뷰

목차

AncomWiki

탐색기

RLHF(인간 피드백 기반 강화학습) 개요

RLHF(인간 피드백 기반 강화학습) 개요

Source

Summary

Key Points

Related

그래프 뷰

목차