PVI 성능 최적화 및 일본어 ASR 모델 개선 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1763. 2026-04-28.md

Summary

본 노트는 Primary Voice Isolation(PVI) 모델의 추론 속도 병목 문제(MossFormer2 경량화, TRT 최적화)와 일본어 ASR의 특정 도메인(주소, 번호, 이름) 인식 오류 개선 방안을 기록한 업무 일지입니다. 또한 ZeroOne TTS 프로젝트의 최종 회의 준비 사항도 포함하고 있습니다.

Key Points

  • PVI(MossFormer2) 추론 속도(RTFx)가 23.9 로 느려, 배포 기준(RTFx 100) 달성을 위해 ONNX-TRT 최적화, INT8 양자화, 지식 증류 등을 검토 중
  • 일본어 ASR 개선: ‘데스(Desu)’ 전사 후 ITN 제거 전략 변경, 필러(간투어) 삭제, 주소/번지수 인식 오류 해결 필요
  • 일본어 이름 인식: 성/이름 분리 시 WFST 구조 문제로 오인식 발생, 코퍼스 재구성 및 Prefix Decoder 모델 도입 검토
  • ZeroOne TTS 프로젝트: 5/19 최종 회의를 앞두고 BLEU 평가, 지식 증류 결과 및 테스트셋(500 개) 준비 중