NVIDIA Jetson 환경에서 vLLM 실행 시 GPU 메모리 캐시 정리 및 모델 로딩 문제

Source

  • Basic Journals/Daily Journals/2025 을사년/을사년 50주, 345일, 12월 11일 목요일.md

Summary

이 노트는 NVIDIA Jetson 기기에서 대규모 언어 모델(LLM, 20b/120b)을 vLLM으로 실행할 때 겪은 기술적 문제와 해결 과정을 기록한 일기 형식의 메모입니다. 핵심 문제의식은 vLLM 프로세스 종료 후에도 GPU 메모리 캐시가 해제되지 않아 시스템 리소스가 고갈되는 버그입니다. 이를 해결하기 위해 텍스트 모드로 전환하고 sysctl -w vm.drop_caches=3 명령어를 사용하여 캐시를 강제로 정리하는 방법을 적용했습니다. 또한 120b 모델 로딩 시 긴 대기 시간과 공유 메모리 브로드캐스트 타임아웃 오류를 경험했으며, 다양한 최신 AI 모델(TTS, Image Gen, VLM, LLM) 링크를 수집한 내용도 포함되어 있습니다.

Key Points

  • NVIDIA Jetson 환경에서 vLLM 사용 시 GPU 메모리 캐시 누수 버그 발생
  • 해결책: 텍스트 모드 전환(systemctl isolate multi-user.target) 및 캐시 강제 정리(sysctl -w vm.drop_caches=3)
  • 120b 모델 로딩 시 약 10분 이상 소요 및 WorkerProc 예외 발생(공유 메모리 브로드캐스트 타임아웃)
  • 다양한 오픈소스 AI 모델(HuggingFace 링크) 수집: VibeVoice(TTS), Z-Image(Image Gen), GLM-4.6V(VLM), DeepSeek-V3.2(LLM) 등
  • 재정 관련: 키움 외화 RP 만기 해지($4,400)