ReturnZero Day 1765: PVI 및 일본어 ASR 모델 개선 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1765. 2026-04-30.md

Summary

본 노트는 Primary Voice Isolation(PVI)의 ONNX-TRT 변환 후 성능 저하 문제(디스틸레이션 검토)와 일본어 ASR 모델의 다수 이슈(데스/필러 처리, 주소/이름/숫자 인식 오류)를 기록한 일일 업무 메모이다. 특히 일본어 모델의 경우 데스(Desu) 전사 전략 변경, WFST 기반 이름 모델 개선, 번지수 인식 문제 등 구체적인 기술적 개선 방향을 제시하고 있다.

Key Points

  • PVI: ONNX-TRT 변환 완료했으나 추론 속도 저하로 디스틸레이션(distillation) 등 최적화 필요
  • 일본어 ASR 공통: 필러(간투어) 삭제 및 데스(Desu) 처리 전략 변경(전사 후 ITN 제거)
  • 일본어 주소 모델: 번지수 인식 정확도 저하 및 ‘1-2-3’ 형태(숫자 vs 가타카나)의 모호성 해결 필요
  • 일본어 이름 모델: 성/이름 분리 인식 오류 발생, WFST 코퍼스 재구성(성+이름+성_이름) 및 prefix decoder 모델 검토
  • 일본어 숫자 모델: ‘4→C’, ‘2→2E’ 등 발음 의존적 오인식 현상 및 데스 소거 문제