ReturnZero Day 1749: PVI 및 일본어 ASR 개선 작업

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1749. 2026-04-14.md

Summary

본 노트는 ReturnZero 프로젝트의 일일 업무 기록으로, Primary Voice Isolation(PVI) 파이프라인 구축 및 일본어 ASR(주소, 번호, 이름 모델)의 전사 오류 개선이 핵심 주제입니다. 특히 일본어 ‘데스’ 처리 방식 변경, 필러 삭제, WFST 기반 이름 모델 개선, 그리고 PVI 데이터셋 합성 전략(amplitude 스케일링, RIR 어그먼테이션)에 대한 구체적인 기술적 접근을 다룹니다.

Key Points

  • Primary Voice Isolation(PVI): 파이프라인 구축 및 로직 개선, secondary speaker amplitude 60% 이하 스케일링 및 RIR 어그먼테이션을 통한 데이터셋 합성 계획
  • 일본어 ASR 개선: ‘데스’ 전사 후 ITN에서 제거하는 방식으로 변경, 필러(간투어) 삭제, 주소(번지수) 및 번호 모델 정확도 향상
  • 일본어 이름 모델: 성/이름 분리 인식 오류 해결을 위해 WFST 코퍼스(성+이름+성_이름) 재구성 및 prefix decoder 모델 검토
  • 기타 업무: 제로원 Bluescore/TTS TN, Pronaia onprem chart, dadumi 버그 수정 등 진행 중