일본어 ASR 실험 및 Utterance Segmenter 개발 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 707. 2023-06-07.md

Summary

본 노트는 2023 년 6 월 7 일의 작업 일지로, 일본어 음성 인식 (ASR) 모델의 학습 및 디코딩 실험 결과 (CER 5.93%) 와 오류 원인 분석을 기록하고 있다. 또한 ASR 결과 후처리를 위한 ‘Utterance Segmenter’ 시스템의 설계 (NLP 기반 문장 분리, 화자 재분류) 와 구현 계획, 그리고 관련 서비스 (vad34, qoo10) 의 디버깅 및 리베이스 작업을 포함한다.

Key Points

  • 일본어 ASR 모델 학습 시 MWW 데이터 온보딩이 UER 지표 개선에 긍정적 영향을 미침
  • 이전 실패 원인은 모델 설정에서 w2v_path 누락 때문임 확인
  • wo_tts 모델 디코딩 결과 CER 5.93% 달성
  • Utterance Segmenter: ASR+ITN 결과를 NLP 모델로 문장 단위 분리 및 화자 재분류 (re-diarize) 하는 시스템 구현 중 (ChatGPT 기반 프로토타입을 언어모델로 대체)
  • vad34 모델 및 online-pipeline 관련 디버깅과 환경 설정 작업 진행