Primary Voice Isolation (PVI) 파이프라인 개선 및 일본어 ASR 모델 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1752. 2026-04-17.md

Summary

본 노트는 Primary Voice Isolation(PVI) 파이프라인의 성능 저하 원인 분석과 개선 방안을 다룬다. Mossformer2 모델의 음성 열화 현상과 화자 선택 오류를 주요 문제로 지목하며, 리샘플링 단계에서 ChatGPT 구현체를 CGO+Soxr 또는 FFmpeg로 교체하는 작업을 진행했다. 또한 일본어 ASR 모델(주소, 번호, 가타카나)의 ‘데스(Desu)’ 처리 로직 변경 및 데이터셋 확보, 제로원 TTS, Pronaia 온프레미스 차트 등 다양한 업무 이슈를 기록하고 있다.

Key Points

  • PVI 파이프라인 성능 분석: 리샘플링, OLA, Separator 재구성 등 단계별 ‘Tax(성능 손실)‘를 측정하기 위해 P0~P4 비교 실험을 설계함.
  • PVI 문제점 식별: Mossformer2 모델이 음성을 열화시키고 있으며, Primary 화자 선택 로직에 오류가 존재함.
  • 리샘플링 개선: 기존 ChatGPT 기반 구현체를 제거하고, CGO+Soxr 또는 FFmpeg 기반의 안정적인 리샘플러로 교체함.
  • 일본어 ASR 개선: ‘데스(Desu)‘를 기존 무시 방식에서 전사 후 ITN(Internet Normalization) 단계에서 제거하는 방식으로 로직 변경 예정이며, 관련 데이터셋 확보 필요.
  • 기타 업무: 제로원 Bluescore, TTS TN, Pronaia 온프레미스 차트, Dadumi 버그 수정 등 진행 중.