일본어 ASR 파이프라인 구축 및 Forced Alignment 문제 해결 시도

Source

  • Field Notes/ReturnZero/Daily Notes/Day 636. 2023-03-28.md

Summary

2023 년 3 월 28 일 일기. 일본어 ASR 모델 배포 및 Qoo10 데이터셋 처리 과정에서 Forced Alignment(강제 정렬) 도구를 찾는 데 어려움을 겪음. 기존 Kaldi 기반 클린업 작업의 한계 (히라가나 전사만 지원) 와 일본어 모델 접근성 문제를 확인하고, Icefall, NeMo, PyTorch 등 대체 도구들을 검토함. 또한 가타카나 인식 성능 개선 실험 결과와 Diarization(BMT) 의 한계, 그리고 E2E-worker 의 타임스탬프 버그 (단어 삭제 시 오프셋 오류) 에 대한 논의가 포함됨.

Key Points

  • 일본어 ASR 파이프라인에서 Forced Alignment 구현을 위해 Icefall, NVIDIA NeMo, PyTorch 등 다양한 도구 검토 중
  • 기존 Kaldi 기반 클린업 작업은 히라가나 전사만 지원하여 일본어 처리에 부적합하다고 판단
  • 가타카나 인식 실험에서 Incremental learning 으로 Far-field noise 문제 해결 가능성 확인
  • E2E-worker API 에서 단어 삭제 시 타임스탬프 기록 오류 버그 발견 및 분석 중
  • BMT 기반 Diarization 이 기대했던 어터런스 쪼개기 기능보다 VAD-ASR 중심임을 확인