Triton Kaldi 메모리 누수 및 성능 저하 문제 분석 (Day 229)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 229. 2022-02-14.md

Summary

Triton Kaldi 백엔드에서 장기 실행 시 발생하는 메모리 누수 및 성능 저하 문제를 진단 중. 컨테이너 버전 업그레이드(21.08→22.01)로 짧은 오디오(15만초) 처리 시 RTFX는 개선되었으나, 긴 오디오(27만초) 처리 시 여전히 메모리 폭주와 크래시가 발생. 어터런스 수보다 오디오 총 길이가 성능 저하의 주요 원인일 것으로 추정. 현재 문제 해결에 매몰되어 있어 작업 리밸런싱 필요성을 인지하고 스크럼에서 공유함.

Key Points

  • Triton Kaldi 코드에서 메모리 누수 이슈 확인 (GitHub 이슈 참조)
  • 컨테이너 버전 22.01 업그레이드 후 clean_segment(156,651초) 기준 RTFX 433→551로 상승
  • 긴 오디오(clean, 277,296초) 처리 시 여전히 메모리 폭주 및 KaldiFatalError 발생
  • 성능 저하 요인으로 어터런스 수보다 오디오 총 길이(total audio seconds)가 더 큰 영향력 가짐
  • Wav2Vec 프리트레인/프리즈 등 대안 기술 검토 필요성 대두
  • 현재 문제 해결에 과도하게 매몰되어 있어 작업 우선순위 재조정 필요