Primary Voice Isolation(PVI) 및 신한은행 다국어 STT 대응 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1737. 2026-04-02.md

Summary

본 노트는 Primary Voice Isolation(PVI) 기술의 연구 진행 상황과 신한은행 프로젝트의 기술적 이슈 대응을 기록한 일일 업무 메모이다. PVI 관련해서는 MossFormer2 모델의 평가 데이터셋 생성(합성 utterance, RIR 어그먼테이션 등)과 실시간 추론 성능 테스트(업샘플링 지연 문제 해결을 위한 GPU 기반 20 초 모델 전환)가 주요 과제이다. 신한은행 프로젝트에서는 16kHz 오디오 지원(클라이언트/서버 설정 수정), VAD 훈련 데이터 부족으로 인한 훈련 중단, 그리고 일본어 ASR 모델 개선(데스/필러 처리, 가타카나 전사) 등의 이슈가 다루어진다.

Key Points

  • Primary Voice Isolation(PVI): MossFormer2 모델 도입 및 평가 데이터셋(합성 utterance, RIR 적용) 생성 중. CPU 추론의 지연 문제를 해결하기 위해 GPU 기반 20 초 모델로 전환하여 테스트 진행.
  • 신한은행 프로젝트: 16kHz 오디오 지원 인프라 구축(whisper 파이프라인 수정, 클라이언트 설정 추가). VAD 훈련은 데이터 부족(1TB 필요)으로 일단 보류.
  • 일본어 ASR 개선: ‘데스’ 처리 방식 변경(전사 후 ITN 제거), 필러 문제 해결, 가타카나 전사 모델 개발 및 언어모델 서프레스 적용 계획.
  • 기타 업무: 제로원 Bluescore 메일 발송 완료, 신한 다국어용 윈도우 클라이언트 빌드 진행 중.