Kaldi VAD 트리밍 입력의 컨텍스트 처리 및 소머즈 후처리

Source

  • Field Notes/ReturnZero/Daily Notes/Day 208. 2022-01-24.md

Summary

이 노트는 VAD로 무음 구간이 트리밍된 음성(15초)을 Kaldi에 입력할 때 발생하는 좌우 컨텍스트(left/right-context) 처리 문제를 다룬다. 학습 시 사용하지 않은 데이터가 컨텍스트로 포함될 수 있는지에 대한 의문에서 디코더 소스 코드 분석이 필요함을 명시한다. 또한 소머즈(Sommers)의 lattice 후처리(detokenizing) 방법과 rt-tokenizer 설치, score.sh 수정 등 구체적인 실행 액션 아이템을 기록하고 있다.

Key Points

  • VAD 트리밍된 음성 입력 시 Kaldi의 좌우 컨텍스트(-13~+9) 처리 방식(실제 음성 참조 vs 패딩)에 대한 명확화 필요
  • 학습 데이터 분포와 다른 컨텍스트 데이터 유입 가능성에 대한 검증 및 필요시 left/right-context 비활성화 구현 고려
  • 소머즈(Sommers) lattice의 detokenizing 후처리 방법 확인 (sommers/s5/score.sh 참조)
  • rt-tokenizer 설치 및 score.sh 파일 수정을 통한 환경 구축 작업 진행