ReturnZero Day 1736: PVI 및 일본어 ASR 개선 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1736. 2026-04-01.md

Summary

본 노트는 ReturnZero 팀의 업무 일지로서, Primary Voice Isolation(PVI) 문제 해결을 위한 데이터셋 구축 및 MossFormer2 모델 테스트, 일본어 ASR(주소/번호/가타카나) 모델 개선 방향, 신규 ASR 모델 도입 검토, 신한은행 다국어 클라이언트 대응 등을 다룹니다. 특히 PVI 이슈의 히스토리와 합성 데이터셋 생성 전략이 상세히 기록되어 있습니다.

Key Points

  • Primary Voice Isolation(PVI): 현대캐피탈 및 신한은행에서 제기된 이슈 해결을 위해 MossFormer2 모델 테스트 및 평가 데이터셋 생성 코드 점검 중.
  • PVI 데이터셋 전략: primary speaker 유지, secondary speaker는 amplitude 60% 이하 스케일링 및 RIR 어그먼테이션을 통한 utterance 합성 방식 채택.
  • 일본어 ASR 개선: 짧은 발화 훈련, VAD 개선, 주소/번호 모델의 ‘데스’ 처리 방식 변경(전사 후 ITN 제거), 가타카나 전사 모델 개발 및 언어모델 서프레스 검토.
  • 신규 ASR 모델: 콜라보 대체 목적의 신규 모델 도입 검토 중.
  • 신한은행 대응: 16k 오디오 환경 지원을 위한 클라이언트(shinhan-ai-branch-stt-lib) 설정 수정 및 서버 측 작업 진행.