Primary Voice Isolation(PVI) 및 일본어 ASR 개선 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1742. 2026-04-07.md

Summary

본 노트는 Primary Voice Isolation(PVI) 모델(MossFormer2)의 실시간 성능 최적화(GPU 추론, 10초 모델 분할)와 평가 데이터셋 생성 로직을 다룬다. 또한 일본어 ASR의 주요 이슈(데스/간투어 처리, 주소/이름 인식 오류, WFST 구조 문제)를 분석하고 개선 방향을 제시한다. 부가적으로 신한 SDK 빌드, 온콜 모니터링(어뷰저 대응, 배치 실패), Pacman 모델 이상 징후 등 일상 업무 기록이 포함되어 있다.

Key Points

  • PVI: MossFormer2 기반 필터 구현 중. CPU 추론의 속도 문제를 해결하기 위해 GPU 빌드 및 10초 단위 모델 분할 로직 적용.
  • PVI 데이터셋: Primary/Secondary 화자 합성(Secondary 음량 60% 이하 스케일링, RIR 어그먼테이션)을 통한 평가 데이터셋 생성 코드 점검.
  • 일본어 ASR 개선: ‘데스’를 전사 후 ITN에서 제거하는 방식으로 변경. 간투어 삭제, 주소(번지수) 및 이름(성/이름 분리 인식 오류) 모델 개선 필요.
  • 일본어 기술적 이슈: WFST가 성+이름 구조로 되어 있어 분리 입력 시 인식률 저하. 숫자 인식 오류(4->C, 2->2E) 및 주소 해석 모호성(1-2-3) 존재.
  • 기타 업무: 신한 다국어용 윈도우 클라이언트 빌드 완료(GitHub Action). 온콜 중 어뷰저 트래픽 및 배치 트랜스코딩 실패 대응. Pacman L4 파일(mel2vec) 이상 징후 확인.