2026-04-23 업무: PVI 및 일본어 ASR 개선

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1758. 2026-04-23.md

Summary

본 노트는 Primary Voice Isolation(PVI)의 ONNX 품질 및 메모리 이슈, Silero VAD 구현 변경(36ms→256ms 입력)에 대한 기술적 검토를 다룹니다. 또한 일본어 ASR 모델 개선(주소, 번호, 이름 인식)을 위한 데스(Desu) 처리 전략 변경, 필러 삭제, WFST 코퍼스 재구성 등 구체적인 문제점과 해결 방안을 기록하고 있습니다.

Key Points

  • PVI(Primary Voice Isolation): ONNX 품질 확보 및 메모리 사용량 최적화 필요.
  • Silero VAD: 기존 36ms 입력 방식에서 256ms 입력(내부 컨텍스트 처리) 방식으로 변경 검토.
  • 일본어 ASR 개선: ‘데스(Desu)’ 전사 후 ITN 단계에서 제거하는 전략으로 변경.
  • 일본어 주소/번호 모델: 번지수 인식 오류, 숫자 발음 변형(2→2E 등) 문제 해결 필요.
  • 일본어 이름 모델: 성/이름 분리 인식 오류 해결을 위해 WFST 코퍼스 재구성(성+이름+성_이름).
  • 평가 결과: eval_1000_manifest_primary_only 기준 CER 5.08%, WER 25.64% 기록.