ASR 모델 개선 현황: PVI, 일본어, MWW 화물맨

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1778. 2026-05-13.md

Summary

본 노트는 Primary Voice Isolation(PVI), 일본어 ASR, MWW 화물맨 도메인 ASR 모델의 개선 과제와 실험 가설을 기록한 일일 업무 메모입니다. PVI는 DeepFilterNet3 검증과 Pronaia 엔진 수정을, 일본어는 데스(음절) 처리, 필러 삭제, 주소/이름 모델 최적화를, MWW 화물맨은 n-gram LM의 한계 극복을 위한 도메인 특화 LM 및 ARPA 보간 실험을 주요 내용으로 합니다.

Key Points

  • PVI(Primary Voice Isolation): DeepFilterNet3 훈련 검증 및 Pronaia 엔진 리샘플러 필터화 수정 진행 중.
  • 일본어 ASR 개선: 데스(음절) 전사 후 ITN 제거 전략, 필러(간투어) 삭제, 주소(번지수) 및 이름(성/이름 분리) 모델 최적화 필요성 확인.
  • MWW 화물맨 LM 실험: n-gram TLG의 한계 인식. 주소-도메인 통합 LM, Public LM과의 ARPA 보간(0.5:0.5), 주소 가중치 하향 조정, 도메인 특화 표현 부스트 등 다양한 가설 기반 그래프 생성 및 검증 중.
  • 기타: 제로원 TTS TN 보고서 작성, dadumi 버그 수정, Qwen3 ASR 벤치마킹 계획.