Triton-Kaldi 디코딩 아키텍처 분석 및 iVector 적응 개념 탐구

Source

  • Field Notes/ReturnZero/Daily Notes/Day 197. 2022-01-13.md

Summary

Triton-Kaldi를 활용한 음성 인식 서비스 개발 중, 온라인/오프라인 디코딩 방식의 차이와 iVector 적응(iVector adaptation)의 역할에 대해 분석함. 배치 디코딩(DecodeBatch)과 콜백 기반 디코딩(DecodeWithCallback)의 동작 방식을 비교하며, 실제 실험 과정에서 모델 리빌딩 시 메모리 경고와 테스트 데이터 파일 경로 오류를 경험함.

Key Points

  • Triton-Kaldi의 온라인 디코더는 iVector 적응을 수행하며, 오프라인 디코더와의 구조적 차이를 파악 중임.
  • iVector(Identity Vector)는 화자 또는 음원의 스펙트럼 특성을 저차원 벡터로 표현하는 피처이며, GMM 슈퍼벡터의 차원 감소 기법임.
  • Triton-Kaldi는 FlushBatch 시 DecodeBatch()를 호출하여 배치 처리를 수행하며, 청크의 시작/종료 여부를 플래그로 관리함.
  • 실험 환경에서 기존 모델을 적용 시 determinize-lattice 단계에서 메모리 초과 경고 발생, 새 모델 적용 시 테스트 wav 파일 경로 오류 발생.