Primary Voice Isolation(PVI) 평가 환경 구축 및 신한 SDK 16kHz 대응

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1741. 2026-04-06.md

Summary

본 노트는 Primary Voice Isolation(PVI) 모델(MossFormer2)의 평가 데이터셋 생성 및 GPU 기반 추론 성능 테스트 과정을 기록한다. 또한 신한은행 클라이언트 SDK의 16kHz 오디오 지원을 위한 빌드 및 파이프라인 수정, 그리고 429 에러 발생 고객(NU, MatrixCloud 등)에 대한 모니터링 환경(Kibana) 세팅 및 온콜 대응 사항을 포함한다.

Key Points

  • PVI 평가: MossFormer2 모델을 GPU 환경에서 테스트하고, primary/secondary speaker 합성을 통한 평가 데이터셋 생성 코드 점검
  • 신한 SDK 대응: 윈도우 클라이언트 빌드 및 서버 파이프라인 수정을 통해 16kHz 오디오 샘플 레이트 지원 구현
  • 모니터링 및 온콜: Kibana 연동을 통한 429 에러(쿼타 초과) 원인 분석 및 주요 고객사(SK T, MatrixCloud) 서비스 상태 확인
  • 향후 과제: 한국어 짧은 발화 훈련, VAD 개선, 일본어 주소/번호 모델 개선(데스 처리 방식 변경) 등 ASR 모델 개선 사항 정리