ReturnZero Day 1756: PVI 및 일본어 ASR 개선 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1756. 2026-04-21.md

Summary

2026-04-21 일일 업무 노트로, Primary Voice Isolation(PVI)의 로직 및 성능 개선(8k 모델, TRT)과 일본어 ASR 모델(주소, 번호, 가타카나)의 전사 오류(데스, 필러, 번지수 인식) 해결을 주요 과제로 다룸. 일본어 이름 WFST 구조 조정 및 숫자 전사 오류(2E, 4->C 등) 분석, 그리고 짧은 발화 훈련과 TTS 관련 업무도 포함.

Key Points

  • Primary Voice Isolation(PVI): 로직 개선, 8k 모델 적용, TRT 관련 작업, ONNX 품질 및 메모리 이슈 해결 필요
  • 일본어 ASR 개선: 주소(번지수), 번호, 가타카나 모델 전사 정확도 향상 목표
  • 일본어 전사 오류 분석: ‘데스’ 소거 문제(기존 무시 -> 전사 후 ITN 제거로 변경), 필러(간투어) 삭제, 숫자 인식 오류(2->2E, 4->C)
  • 일본어 이름 모델: 성/이름 분리 인식 실패(WFST 구조 문제), prefix decoder 모델 및 성+이름 코퍼스 기반 WFST 재구축 검토
  • 기타: 한국어 짧은 발화 훈련, 제로원 TTS TN, Pronaia onprem chart, dadumi 버그 수정, juno용 prefix 모델 준비