Llama-3-70B vLLM/Triton 서버 구축 및 pysommers 데이터 전처리

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1026. 2024-04-22.md

Summary

이 노트는 Llama-3-70B 모델을 vLLM과 NVIDIA Triton Inference Server를 통해 배포하기 위한 기술적 탐색 과정과, ‘pysommers’ 프로젝트의 데이터 전처리(export 및 학습 준비) 작업을 기록한 일일 할 일 목록이다. 특히 다중 GPU 환경에서의 vLLM 설정(tensor_parallel_size, NCCL 설정)과 Triton 백엔드 구성(model.json, config.pbtxt)에 대한 구체적인 파라미터와 참고 링크를 정리하고 있다.

Key Points

  • Llama-3-70B 모델을 vLLM과 Triton Inference Server 연동하여 배포하는 방법 탐색
  • 다중 GPU 환경에서의 vLLM 설정: tensor_parallel_size 조정 및 NCCL_P2P_DISABLE 환경 변수 설정
  • Triton vLLM 백엔드 구성: model.json을 통한 엔진 파라미터 전달 및 config.pbtxt의 간소화
  • pysommers 프로젝트의 데이터 통합 및 export 과정에서의 문제점(dict 출력 오류 등)과 학습 준비 단계 기록
  • 동적 배치(dynamic batching) 비활성화(max_batch_size=0) 등 성능 최적화를 위한 설정 시도