Primary Voice Isolation 및 일본어 ASR 개선 현황 (2026-03-31)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1735. 2026-03-31.md

Summary

본 노트는 Primary Voice Isolation(PVI) 기술의 평가 데이터셋 구축 및 MossFormer2 모델 테스트 진행 상황을 기록하고 있다. 또한 일본어 ASR 모델의 개선 과제(주소/번호 인식, 가타카나 전사, 데스/필러 처리)와 ZeroOne TTS 관련 평가(bleuscore, 양자화, 모델 제약)에 대한 메모를 포함한다. 현대캐피탈 및 신한은행의 다국어 환경 이슈가 PVI 연구의 배경으로 언급된다.

Key Points

  • Primary Voice Isolation(PVI) 평가 데이터셋 생성 코드 점검 및 MossFormer2 실시간 테스트 진행 중
  • PVI 데이터셋 구성: primary speaker 유지, secondary speaker는 60% 이하 amplitude 스케일링 및 RIR 어그먼테이션 적용
  • 일본어 ASR 개선 목표: 짧은 발화 훈련, VAD 개선, 주소/번호 모델 정확도 향상(데스 전사 후 ITN 제거 방식 전환), 가타카나 전사 모델 개발
  • ZeroOne TTS 관련: bleuscore 기반 유효성 검증, 모델 속도/크기 제약 하의 양자화(quantization) 및 샘플링 평가
  • PVI 연구 배경: 현대캐피탈 및 신한은행의 실제 서비스 환경에서 제기된 음성 분리 및 다국어 인식 이슈