Primary Voice Isolation (PVI) 성능 평가 및 일본어 ASR 개선 계획

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1750. 2026-04-15.md

Summary

본 노트는 Primary Voice Isolation(PVI) 기술의 도입 효과와 성능 트레이드오프를 분석하고, 일본어 ASR 모델(주소, 번호, 가타카나)의 개선 방향을 정리한 업무 일지입니다. PVI 적용 시 문자 오류율(CER)이 13.12%에서 4.91%로 크게 감소하는 긍정적 효과가 확인되었으나, 추론 지연 시간(Latency)이 약 6배 증가하는 문제가 발생하여 최적화(ONNX/Trt) 필요성이 제기되었습니다. 또한 일본어 전사 모델의 ‘데스’ 처리 방식 변경 및 필러 문제 해결, 가타카나 전사 모델 개발 등 다국어 ASR 개선 과제를 포함합니다.

Key Points

  • PVI 적용으로 CER 13.12% → 4.91% 개선, WER 33.11% → 25.21% 개선 효과 확인
  • PVI 도입 시 평균 지연 시간 50ms → 300ms 증가(약 6배)로 성능 최적화(ONNX/TensorRT) 필요
  • 일본어 ASR 개선: 주소/번호 모델의 ‘데스’ 처리 방식 변경(전사 후 ITN 제거), 필러 문제 해결
  • 일본어 가타카나 전사 모델 개발 및 언어모델 서프레스 작업 진행 중
  • PVI 데이터셋 구성: primary speaker 유지, secondary speaker는 음량 스케일링(60% 이하) 및 RIR 어그먼테이션 적용