E2E ASR 모델 Triton 서빙 환경 구축 및 테스트 (Day 723)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 723. 2023-06-23.md

Summary

이 노트는 AWS EC2(g5 인스턴스) 환경에서 ONNX 기반의 E2E ASR 모델(일반/이름/코드 인식)과 VAD 모델을 TensorRT로 변환하고, Triton Inference Server를 통해 서빙하는 과정의 기술적 기록이다. Docker 및 NVIDIA 드라이버 설정, Envoy/Nginx 리버스 프록시 관련 고민, 그리고 실제 BMT(Batch Mode Transcription) 테스트 실행 명령어들이 포함되어 있다.

Key Points

  • 서버 환경: AWS EC2 g5xlarge/g52xlarge, Ubuntu 22.04 기반 Docker 컨테이너 환경
  • 모델 변환: ONNX 모델들을 TensorRT 엔진으로 변환 (relpos_8k 시리즈 및 VAD 모델)
  • 서빙 아키텍처: IP 기반 서빙 여부 확인 중, 인증서(Let’s Encrypt) 및 리버스 프록시(Nginx vs Envoy) 설정 논의
  • 테스트 실행: Triton gRPC 호스트(mww-jp-online.vito.ai)를 대상으로 동시성 800 설정으로 BMT 테스트 수행
  • 환경 설정: NVIDIA Container Toolkit 및 드라이버 버전 525 설치 및 구성