PVI 최적화 및 일본어 ASR 모델 개선 현황 (2026-05-06)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1771. 2026-05-06.md

Summary

본 노트는 Primary Voice Isolation(PVI)의 ONNX-TRT 변환 후 성능 저하 문제(메모리/속도)에 대한 해결 방안(지식 증류 등)을 모색하고, 일본어 ASR 모델의 다각적인 개선 사항을 기록한다. 주요 이슈로는 일본어 주소/번호 모델의 ‘데스(Desu)’ 처리 방식 변경(전사 후 ITN 제거), 필러(간투어) 삭제, 가타카나 전사 모델 개발, 그리고 이름 인식 시 성/이름 분리 오류(WFST 구조 문제)와 숫자 오인식(2E, C 등) 현상 등이 포함된다.

Key Points

  • PVI: ONNX-TRT 변환 완료했으나 추론 속도 저하 및 메모리 이슈 발생, 지식 증류(Distillation) 검토 중
  • 일본어 번호/주소 모델: ‘데스’ 처리를 기존 무시 방식에서 전사 후 ITN 단계에서 제거하는 방식으로 변경 예정
  • 일본어 이름 모델: 성/이름 분리 시 인식률 저하 문제 발생, WFST 코퍼스 재구성(성+이름+성_이름) 및 Prefix Decoder 모델 도입 검토
  • 일본어 일반 개선: 필러(간투어) 삭제, 가타카나 전사 모델 개발 및 언어모델 서프레스 적용
  • 기타 업무: 제로원 TTS TN, Pronaia onprem chart, dadumi 버그 수정 등 진행 중