Primary Voice Isolation(PVI) 및 신한은행 다국어 ASR 대응 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1738. 2026-04-03.md

Summary

본 노트는 Primary Voice Isolation(PVI) 기술의 연구 진행 상황(데이터셋 생성, MossFormer2 모델 평가)과 신한은행 프로젝트의 다국어/샘플레이트 이슈 대응(16kHz 오디오 파이프라인 구성, VAD 훈련 검토)을 기록한 일일 업무 메모이다. 일본어 ASR 모델 개선(가타카나, 번호 인식) 및 윈도우 클라이언트 빌드 관련 사항도 포함된다.

Key Points

  • Primary Voice Isolation(PVI): 짧은 발화 데이터셋 생성 및 MossFormer2 모델의 실시간 성능 평가 중. GPU 빌드 및 평가 데이터셋 제작이 주요 과제.
  • 신한은행 프로젝트: 16kHz 오디오 처리를 위한 Whisper 파이프라인(transcoder) 구성 및 신한 SDK 윈도우 라이브러리 빌드 진행. VAD 훈련은 데이터 양과 성능 문제로 일단 보류.
  • 일본어 ASR 개선: 짧은 발화 훈련, VAD 개선, 주소/번호 모델 개선(데스/필러 처리 방식 변경), 가타카나 전사 모델 개발 계획.
  • 기타: 제로원 Bluescore 메일 발송 완료, 윈도우 클라이언트 GitHub Action 빌드 프로세스 확인.