ITN 모델 배포 및 성능 튜닝 (Day 666)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 666. 2023-04-27.md

Summary

ITN(Internationalization Text Normalization) 관련 서비스(dadumi, vito-worker)의 버그 수정 및 배포 진행 상황을 기록함. 특히 Triton Inference Server 상에서 동작하는 Spacer 및 Neural ITN 모델들의 성능(performance)을 perf_analyzer를 통해 측정하고, GPU 점유율과 Throughput/Latency 트레이드오프를 분석하기 위해 다양한 Concurrency 설정(4~1024)으로 부하 테스트를 수행함. Docker 환경의 한글 인코딩 문제 해결 및 로그 확인 방법 등 운영 팁도 포함함.

Key Points

  • ITN 서비스(dadumi v2.0.1.dev0, vito-worker) 버그 수정 및 IaC 배포 진행
  • Triton Inference Server 모델 성능 분석을 위해 perf_analyzer 사용
  • Spacer Core 및 Neural ITN Core 모델에 대해 Concurrency 4~1024 범위에서 부하 테스트 수행
  • 높은 Concurrency(예: 1024) 시 Throughput은 증가하나 Latency가 급격히 증가하는 트레이드오프 확인
  • GPU 점유율 98~99% 유지 상태에서 최적의 인스턴스 수 및 Concurrency 탐색 필요
  • Docker 컨테이너 내 한글 깨짐 현상 해결을 위한 locale 설정 방법 기록