LLM 엔지니어링 및 한국어 모델 학습 환경 구축 참고 자료

Source

  • Pending Inbox/LLM 엔지니어링 관련 갈무리.md

Summary

이 노트는 LLM(대형 언어 모델) 파인튜닝 및 한국어 모델 학습을 위한 하드웨어 사양(CPU, RAM, GPU 조합)과 관련 리소스(모델, 데이터셋, 논문, 강의, 벤치마크)를 수집한 갈무리 목록입니다. 특히 한국어 의료/일반 도메인 모델 학습을 위한 데이터셋과 파인튜닝 기법(QLoRA 등)에 대한 참고 링크가 주를 이룹니다.

Key Points

  • 하드웨어: Ryzen 7600/7500F, RAM 32GB 이상(64/96GB 권장), ASUS WS 시리즈 메인보드(PCIe 확장성), GPU는 RTX 4090 + Tesla P40 조합 언급
  • 파인튜닝: Mistral, Llama2, Mixtral 등 모델의 파인튜닝 사례 및 QLoRA, LoRA 관련 리포지토리 및 아티클 수집
  • 한국어 리소스: 한국어 의료/일반 대화 데이터셋(KO-Platypus, ko-medical-chat 등), 한국어 임베딩 모델(bge-m3-korean), 한국어 벤치마크(LogicKor) 링크 모음
  • 학습 자료: LLM 관련 강의, 논문(코드 스위칭, 지식 전달 등), HuggingFace 모델/데이터셋 컬렉션 링크