Primary Voice Isolation (PVI) 연구 계획서

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1731. 2026-03-27.md

Summary

실제 서비스 환경에서 배경 화자 및 잡음이 ASR 오인식을 유발하는 문제를 해결하기 위한 ‘Primary Voice Isolation(PVI)’ 연구 계획서입니다. 단순 음질 개선을 넘어 ASR 성능 향상을 목표로 하며, Blind Separation, Reference-conditioned TSE, Generative TSE 세 가지 접근법의 장단점과 실서비스 적용 한계를 분석합니다. 특히 공개 벤치마크와 실제 서비스 조건(전화 음성, 다국어, enrollment 품질 등) 간의 괴리를 해소하기 위해 데이터 설계와 평가 프로토콜을 핵심 차별점으로 삼고 있습니다.

Key Points

  • PVI 정의: near-end 화자 보존 및 background 화자 억제를 통해 downstream ASR 오인식 감소
  • 연구 목표: 음질 개선이 아닌 ASR error reduction 및 실서비스 조건에서의 일반화 가능성 확인
  • 접근법 비교: Blind Separation(안정성 높으나 target 판별 필요), TSE(정확도 높으나 enrollment 의존적), Generative TSE(음질 좋으나 ASR 개선 불확실)
  • 핵심 차별점: 실서비스 조건(8kHz, 다국어, channel mismatch 등)을 반영한 hybrid evaluation 및 데이터 설계
  • 주요 가설: enrollment 조건에 따라 TSE와 Blind Separation의 성능 우위가 달라지며, 데이터/평가 설계가 모델 교체보다 성능에 더 큰 영향