T4 GPU 환경에서 WFST 모델의 성능 측정 (Day 876)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 876. 2023-11-24.md

Summary

T4 GPU 환경에서 WFST 기반 음성 인식 모델의 처리 성능을 측정하는 실험 기록입니다. Triton Inference Server 및 Docker 컨테이너(online-bmt, pronaia-engine)를 활용하여 다양한 동시 처리량(concurrency) 조건에서의 실시간 처리율(realtimex)과 지연 시간(latency)을 평가했습니다. 특히 높은 동시 처리 시와 낮은 동시 처리 시의 성능 차이를 로그 데이터로 비교 분석하고 있습니다.

Key Points

  • 실험 환경: T4 GPU, Triton Server, Docker 기반 마이크로서비스 아키텍처
  • 성능 지표: 실시간 처리율(realtimex), 평균/백분위 지연 시간(latency), 에러 카운트
  • 테스트 시나리오: 다양한 동시 처리량(concurrent requests)에 따른 부하 테스트 수행
  • 결과 관찰: 동시 처리량에 따라 처리 속도와 지연 시간 분포가 크게 달라짐을 확인