Triton-Kaldi 서버 성능 저하 및 GPU 메모리 이슈 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 224. 2022-02-09.md

Summary

오리사 환경으로 서버를 이전한 후 Triton-Kaldi 백엔드의 추론 속도 저하와 종료 지연 문제를 발견했다. max_queue_delay_microseconds 설정이 과도하게 길어 병목이 발생했으며, lattice_beam 값 조정 실험을 진행했다. 대용량 테스트(4.4GB) 시 GPU 사용률이 예상보다 낮고 cudaErrorIllegalAddress 오류가 반복되며, 디코더의 determinize-lattice 단계에서 메모리 제한(50MB) 초과로 인해 요청된 beam 값을 달성하지 못하는 경고가 발생했다. num_workernum_channel 등 설정값을 조정했으나 GPU 활용도 저하 원인이 명확하지 않아 디코더 내부 로직 재검토가 필요함을 확인했다.

Key Points

  • Triton-Kaldi 서버의 추론 지연 및 ^C 종료 실패 현상 확인 (lattice callback 대기)
  • 성능 병목 원인: max_queue_delay_microseconds 설정 과다로 인한 큐 지연
  • 대용량 입력 시 GPU 사용률 저하 및 cudaErrorIllegalAddress 재발생
  • 디코더 내부 determinize-lattice 단계에서 메모리 초과로 인해 effective beam 이 요청 값보다 낮아짐
  • Vito worker 설정(num_channel, num_worker) 조정 시도 및 RT-tokenizer 배포 진행