ReturnZero Day 1748: PVI 및 일본어 ASR 개선 작업

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1748. 2026-04-13.md

Summary

본 노트는 ReturnZero 프로젝트의 일일 업무 기록으로, Primary Voice Isolation(PVI) 파이프라인 구축 및 일본어 ASR(주소, 번호, 가타카나) 모델 개선에 대한 구체적인 이슈와 해결 방안을 다룹니다. 특히 일본어 전사 시 발생하는 ‘데스(Desu)’ 처리, 필러 삭제, WFST 구조 문제, 그리고 PVI 데이터셋 합성 전략(amplitude 스케일링, RIR 어그먼테이션)에 대한 기술적 고민이 포함되어 있습니다.

Key Points

  • Primary Voice Isolation(PVI): 파이프라인 구축 및 로직 개선 진행 중. Secondary speaker 합성 시 amplitude 60% 이하 스케일링 및 RIR 어그먼테이션 적용 계획.
  • 일본어 ASR 개선: 주소(번지수), 번호, 가타카나 모델 개선 필요. 특히 ‘데스(Desu)‘는 전사 후 ITN 단계에서 제거하는 방식으로 변경 고려.
  • 일본어 전사 이슈: 필러(간투어) 삭제, 성/이름 분리 시 WFST 오류, 숫자 인식 오류(4->C, 2->2E), 주소 형식 모호성(1-2-3 해석) 등.
  • 기타 업무: 제로원 Bluescore, TTS TN, Pronaia onprem chart, dadumi 버그 수정, 현대캐피탈 인증서 문제 해결 완료.