RLHF(인간 피드백 기반 강화학습) 개요

Source

  • Basic Journals/Daily Journals/2022 임인년/임인년 363일, 12월 29일 목요일.md

Summary

이 노트는 ChatGPT 등에 적용된 RLHF(Reinforcement Learning from Human Feedback)의 개념과 3단계 학습 프로세스(사전학습, 보상모델 학습, 강화학습 파인튜닝)를 요약한다. 주요 연구기관(OpenAI, Anthropic, DeepMind)의 모델 적용 사례와 파인튜닝의 선택적 필요성, 안전성 기준(harmless 등) 부여 방식을 언급한다.

Key Points

  • RLHF 정의: 사람의 응답 피드백을 통해 학습하는 강화학습 기법
  • 3단계 프로세스: 1) LM 사전학습, 2) 데이터 수집 및 보상모델 학습, 3) LM의 강화학습 기반 파인튜닝
  • 기관별 접근: OpenAI(InstructGPT), Anthropic(다양한 규모 Transformer), DeepMind(Gopher) 등
  • 파인튜닝의 역할: 필수 아님(선택적), 하지만 ‘유용함/정직함/무해함’ 등의 가치 정렬에 기여