2026-04-22 업무: PVI, 일본어 ASR 개선 및 Silero VAD 평가

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1757. 2026-04-22.md

Summary

본 노트는 2026년 4월 22일의 업무 일지로, Primary Voice Isolation(PVI) 로직 및 성능 개선, 일본어 ASR 모델(주소, 번호, 가타카나)의 데스(Desu) 처리 및 필러 삭제 문제 해결을 주요 과제로 다룹니다. 또한 Silero VAD 파라미터(0.3/0.6 vs 0.4/0.6) 변경에 따른 CER/WER 성능 평가 결과를 기록하고 있으며, 짧은 발화 훈련 및 수명업무 관련 모델 준비 사항도 포함합니다.

Key Points

  • PVI(Primary Voice Isolation): 로직 개선 및 8k 모델(TRT) 성능 최적화 진행 중
  • 일본어 ASR 개선: 주소(번지수), 번호 모델의 ‘데스’ 전사 후 ITN 제거 전략, 필러(간투어) 삭제, 가타카나 전사 모델 개발
  • Silero VAD 평가: 파라미터 0.3/0.6과 0.4/0.6 비교 결과, CER은 5.11%에서 4.91%로 소폭 개선되었으나 RTFx는 65.46에서 142.14로 증가
  • 기타: 한국어 짧은 발화 훈련, 제로원 TTS TN, Pronaia onprem chart, dadumi 버그 수정 등