Triton-Kaldi 오프라인 디코딩 및 Sommers 데이터셋 연동 문제

Source

  • Field Notes/ReturnZero/Daily Notes/Day 202. 2022-01-18.md

Summary

Triton-Kaldi 기반 오프라인 디코더 구현 과정에서 iVector 추출 방식(스트림 vs 청크)의 차이와 Sommers 데이터셋의 SCP/ARK 경로 인식 오류로 인한 파일 읽기 실패 문제를 기록함. CER(CER) 검증 시 심볼 변환 및 결과 해석의 어려움, Kaldi 오프라인/온라인 처리 순서 및 배치 처리(batched-wav-nnet3-cuda)에 대한 기술적 혼란과 해결 방향 모색을 포함함.

Key Points

  • Triton-Kaldi 오프라인 디코더 구현 중 iVector 추출 방식(스트림 vs 전체 청크)의 차이점 확인 필요
  • Sommers 데이터셋 처리 시 SCP 파일 경로 오류로 인한 파일 읽기 실패, ARK 경로 사용으로 해결 시도
  • CER 검증 과정에서 심볼 정수 변환 및 결과 해석의 어려움 발생
  • Kaldi 오프라인/온라인 디코딩의 기술적 차이(배치 처리, iVector)에 대한 이해 부족으로 인한 구현 지연
  • 오프라인 디코더 개발을 위한 Kaldi 도구(nnlm3, fst 등) 및 처리 순서 재검토 필요