Triton Server 헬름 차트 배포 및 모델 로딩 오류

Source

  • Field Notes/ReturnZero/Daily Notes/Day 743. 2023-07-13.md

Summary

Triton Server를 헬름 차트로 배포하는 과정에서 컨테이너는 실행되었으나, liveness probe 실패로 인해 IaC 설정을 수정해야 했다. 또한 TensorRT 백엔드에서 conformer 모델들의 plan 파일 로딩 실패(UNAVAILABLE)가 발생했으며, 이는 T4 GPU 환경과 관련이 있을 것으로 추정된다.

Key Points

  • Triton Server 헬름 차트 배포 시도: 컨테이너 실행 성공 but liveness probe 실패
  • 해결 시도: IaC 참고하여 liveness probe 설정 수정
  • 모델 로딩 오류: conformer_10, 2, 5 모델에서 ‘unable to load plan file’ 에러 발생
  • 원인 추정: T4 GPU 환경에서의 TensorRT plan 파일 호환성 문제
  • 정상 동작: decoder_timestamp, itn-wfst 모델은 READY 상태