PVI 성능 개선 및 일본어 ASR 모델 이슈 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1755. 2026-04-20.md

Summary

본 노트는 Primary Voice Isolation(PVI) 모델의 ONNX와 TRT 버전 간 성능 격차(특히 TRT의 높은 CER/WER)를 확인하고, 일본어 ASR 모델의 개선 방향(데스 처리, 필러 삭제, 주소/이름/숫자 인식 오류 해결)을 정리한 일일 업무 기록이다.

Key Points

  • PVI 8k 모델 평가: ONNX 버전(CER 11.15%) 대비 TRT 버전(CER 34.87%)에서 성능이 현저히 저하됨을 확인.
  • 일본어 ASR 개선 과제: 데스(음절) 처리 방식 변경(전사 후 ITN 제거), 필러(간투어) 삭제, 주소(번지수) 및 이름(성/이름 분리 인식) 모델 최적화.
  • 일본어 숫자 인식 오류: ‘4’가 ‘C’로, ‘2’가 ‘2E’로 오인식되는 현상 및 주소 형식(숫자 vs 한자)의 모호성 해결 필요.
  • 기타 업무: 한국어 짧은 발화 훈련, 가타카나 전사 모델 개발, 제로원 TTS TN, Pronaia onprem chart 등 진행 중.