Triton Kaldi ASR 클라이언트 메모리 폭주 및 성능 저하 디버깅

Source

  • Field Notes/ReturnZero/Daily Notes/Day 219. 2022-02-04.md

Summary

Triton Kaldi ASR 클라이언트 실행 시 발생하는 메모리 폭주(OOM) 문제를 해결하기 위해 딜레이, 큐 대기 시간, 시퀀스 배치 크기 등 다양한 파라미터를 조정하며 테스트한 기록이다. 0.3초 이상의 딜레이나 max_candidate_sequences 256 설정 시 메모리 오류는 발생하지 않았으나, RTFX(처리 속도)가 13 수준으로 매우 저조하고 GPU 활용도가 낮아 성능 최적화에 실패한 상태이다. 메모리 누수 가능성과 큐/배치 스케줄링의 관계를 추론하며 Valgrind 등 추가 디버깅 도구를 고려하고 있다.

Key Points

  • Triton Kaldi ASR 클라이언트 실행 중 메모리 폭주(OOM) 현상 발생
  • 딜레이 조정 실험: 0.05~0.1초 시 터짐, 0.3초 이상 시 안정화되지만 처리 속도 저하
  • 큐 대기 시간(max_queue_delay_microseconds)을 5000000us(5초)로 늘려도 메모리 증가 추세 지속
  • 시퀀스 배치 크기 조정: max_candidate_sequences 256 시 안정적이나 512 시 메모리 오류 재발생
  • 성능 결과: RTFX 13.7 수준으로 매우 낮으며, GPU 활용도가 낮고 WER(단어 오류율) 산출 실패
  • 원인 가설: 오프라인 몰빵 시 GPU 사용량 일시 증가 후 감소, 메모리 지속 증가로 큐 부재 또는 누수 의심
  • 다음 단계: Valgrind 등을 활용한 메모리 디버깅 계획