Primary Voice Isolation 및 일본어 ASR 개선 과제

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1734. 2026-03-30.md

Summary

본 노트는 Primary Voice Isolation(PVI) 기술의 서베이 및 데이터셋 구축(현대캐피탈/신한은행 이슈 대응)을 주요 현업 과제로 다룬다. 또한 일본어 ASR 모델 개선(주소, 번호, 가타카나 전사 및 데스/필러 처리 전략 변경)과 한국어 짧은 발화 훈련, ZeroOne TTS의 정규화 대 학습 방식 고민 등 다국어 음성 인식 및 합성 관련 연구 개발 현황을 기록하고 있다.

Key Points

  • Primary Voice Isolation(PVI): 현대캐피탈 및 신한은행의 다국어 환경 이슈를 해결하기 위한 PVI 서베이 진행 및 합성 데이터셋 구축(2차 화자 음량 스케일링, RIR 증강 등) 계획.
  • 일본어 ASR 개선: 주소 모델(데스, 번지수), 번호 모델(데스 전사 후 ITN 제거, 필러 처리), 가타카나 전사 모델 개발 및 언어모델 서프레스 적용.
  • 한국어 ASR: 짧은 발화(short utterance) 훈련 및 VAD(Voice Activity Detection) 개선.
  • ZeroOne TTS: 텍스트 정규화(TN) 대신 모델 학습을 통한 정확한 발음 유도 방식 검토(다국어 숫자 읽기 방식 차이 고려).
  • 일정: Primary Voice Isolation 서베이가 당일 주요 할 일로 명시됨.