CPU 기반 로컬 LLM 실행을 위한 도구 및 모델 링크집
Source
Evernote/Inbox/CPU로 LLM을 돌리는 초보를 위한 링크집 - Ai 언어모델 로컬 채널.md
Summary
이 문서는 GPU VRAM이 부족하여 CPU로 로컬 LLM을 실행하려는 초보자를 위한 도구와 모델 링크 모음입니다. 주요 도구로는 GGML 형식 변환을 통한 CPU 실행을 가능하게 하는 llama.cpp, 이를 파이썬/LangChain과 연결하는 llama-cpp-python, 그리고 사용자 친화적인 GUI를 제공하는 KoboldCPP를 소개합니다. 또한 BabyAGI 4 ALL API를 통한 오토에이전트 활용법과 호깅페이스에서 GGML 모델 검색 시 주의할 버전 호환성(2023년 5월 이후 llama.cpp 버전 변경)을 안내합니다. 마지막으로 WizardVicuna, WizardLM, Vicuna, MPT, OpenAssistant, Pygmalion, Korean Vicuna 등 다양한 GGML 양자화 모델들의 다운로드 링크를 제공합니다.
Key Points
- llama.cpp: GGML 형식으로 변환하여 CPU에서 LLM 구동 가능 (VRAM 부족 시 대안)
- llama-cpp-python: llama.cpp를 파이썬 환경(LangChain 등)과 연동하는 라이브러리
- KoboldCPP: 설정 없이 실행 파일만으로도 GGML 모델을 쉽게 구동할 수 있는 초보자용 UI
- BabyAGI 4 ALL API: CPU 기반 로컬 모델을 오토에이전트 프레임워크에 연결하는 도구
- 모델 호환성 주의: 2023년 5월 10일 이후 버전의 llama.cpp는 이전 GGML 파일과 호환되지 않음 (신규 변환 모델 필요)
- 추천 GGML 모델: WizardVicuna, WizardLM, Vicuna, MPT, OpenAssistant, Pygmalion, Korean Vicuna 등