GGUF 양자화, qLoRA 및 Jetson Nano/Edge 디바이스 LLM 배포 연구

Source

  • Basic Journals/Daily Journals/2024 갑진년/갑진년 116일, 4월 25일 목요일.md

Summary

이 노트는 GGUF 양자화 포맷(F32, Q4_K 등)의 용어 해독과 EEVE(야놀자 파인튜닝 모델) 소개를 시작으로, LoRA 및 qLoRA(NF4 양자화, 더블 양자화, Paged Optimizer)의 원리와 메모리 효율화 기법을 정리한다. 또한 Llama.cpp, Whisper.cpp, Stable Diffusion을 Jetson Nano 및 Raspberry Pi 같은 Edge 디바이스에 배포하는 가능성과 한계(메모리 부족 등)를 관련 링크와 함께 조사하며, 최종적으로 Whisper, Llama3, Stable Diffusion 세 가지 모델을 Edge 환경에 적용해보는 실험 계획을 수립한다.

Key Points

  • GGUF 양자화 표기법(F32, Q{A}{B}, IQ{A}{B})의 의미와 K, M, S/XS/XXS 등의 접미사 해독 시도
  • LoRA(저순위 적응)와 qLoRA(4비트 NF4 양자화 기반 효율적 파인튜닝)의 핵심 개념 및 BitsAndBytes, HF PEFT 도구 활용
  • Jetson Nano, Raspberry Pi 등 Edge 디바이스에서의 LLM(Llama.cpp) 및 오디오/이미지 모델(Whisper.cpp, SD) 실행 가능성 조사
  • Edge 디바이스 배포 시 메모리 제약(특히 SDXL)과 Python 버전 호환성(Whisper-edge) 문제점 확인
  • Whisper, Llama3, Stable Diffusion을 Edge 환경에 배포하는 통합 실험 계획