ASR 모델 개선 현황: PVI, 일본어, 화물맨 도메인

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1776. 2026-05-11.md

Summary

2026 년 5 월 11 일 업무 노트로, Primary Voice Isolation(PVI) 성능 검증 결과와 일본어 ASR(주소, 번호, 가타카나) 개선 방향, 그리고 화물맨 도메인 LM(Language Model) 최적화 가설들을 기록하고 있다. PVI 는 DeepFilterNet3 검증과 pronaia-engine 수정을 진행 중이며, 일본어는 데스 (desu) 처리 방식 변경과 필러 삭제를 중점적으로 다룬다. 화물맨 도메인은 n-gram LM 의 한계를 지적하며, 주소 데이터의 가중치 조절, 도메인 특화 표현 부스팅, 코드 전용 LM 분리 등 다양한 ARPA interpolation 전략을 테스트하고 있다.

Key Points

  • PVI(Primary Voice Isolation): DeepFilterNet3 훈련 및 pronaia-engine 리샘플러 필터화 수정 진행. 테스트 결과 primary_only 기준 CER 5.77%, WER 26.43% 기록.
  • 일본어 ASR 개선: 데스 (desu) 전사 후 ITN 에서 제거하는 방식으로 변경. 필러 (간투어) 삭제, 주소 (번지수) 인식 개선, 가타카나 전사 모델 개발 및 언어모델 서프레스 필요성 제기.
  • 화물맨 도메인 LM 최적화: 기존 n-gram TLG 만으로는 utterance-level EM 개선에 한계가 있음 확인. 주소 데이터 과대표현 방지를 위한 가중치 하향, 도메인 특화 표현 부스팅, 코드/일련번호 전용 LM 분리 등 다양한 가설 기반 테스트 진행.
  • 기타 업무: 제로원 TTS TN(Matt), Pronaia onprem chart, dadumi 버그 수정, 한국어 짧은 발화 훈련 등.