Triton-Kaldi GRPC 통신 분석 및 Sommers 모델 디버깅

Source

  • Field Notes/ReturnZero/Daily Notes/Day 194. 2022-01-10.md

Summary

이 노트는 Triton Inference Server와 Kaldi ASR를 연동하는 과정에서 발생한 Sommers 모델 응답 실패 및 서버 먹통 문제를 기록한다. 주요 작업은 GRPC 프로토콜을 통한 클라이언트-서버 간 wav chunk 전송 및 Lattice/TEXT/CTM 출력 처리의 코드 분석이다. 또한 다중 화자 인식(Diarization), VAD, SRU++ 성능 향상 등 리서치 팀의 주간 실험 계획과 데이터 보안 이슈, 감정 표현(웃음/울음) 전사 방식에 대한 고민을 포함한다.

Key Points

  • Triton-Kaldi 연동 중 Sommers 모델 실행 시 응답 실패 및 서버(Mega) 먹통 발생
  • GRPC 기반 TritonASRClient의 wav chunk 전송 및 결과(Lattice, TEXT, CTM) 수신 프로세스 코드 분석
  • 다중 화자 인식(Diarization), VAD, SRU++ 성능 향상 등 주간 리서치 실험 계획 수립
  • Ksponspeech/EBS 데이터셋의 마이크 설정 차이(단일 vs 다중)로 인한 다중 화자 실험의 한계 인지
  • VTS 데이터 접근 권한 과다 부여에 대한 데이터 보안 우려 제기
  • 전사 결과에서 웃음/울음 등 비언어적 소리의 표기 방식(예: 웃음, ㅋㅋ)에 대한 고민