Primary Voice Isolation 연구 계획 및 VAD 개선 방향

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1730. 2026-03-26.md

Summary

본 노트는 배경 잡담 등 간섭 음성이 많은 환경에서 주 화자(Near-end)의 음성을 보존하고 배경 음성을 억제하는 ‘Primary Voice Isolation’ 기술의 연구 계획을 다룬다. 기존 VAD의 한계를 지적하며, 합성 데이터셋 구축(Easy~Very Hard 난이도), 타겟 화자 중심의 라벨링 체계, 그리고 VAD 기반 게이트링부터 타겟 조건부 프론트엔드까지의 베이스라인 전략과 평가 지표(Target Recall, Background False Accept Rate 등)를 정의한다.

Key Points

  • 문제 정의: 단순 소음 제거가 아닌, 언어 정보를 가진 배경 화자 음성을 억제하고 주 화자 음성을 보존하는 Primary Voice Isolation 필요
  • 데이터셋 전략: Primary/Secondary 트랙 합성을 통해 Easy부터 Very Hard까지 다양한 난이도의 Synthetic Dataset 구축
  • 라벨링: target_present, bg_speech_present 등 실용적 프레임 단위 라벨 및 SIR/SNR 등 메타데이터 정의
  • 베이스라인: 1) 기존 VAD + Speaker-aware gating, 2) Target-conditioned front-end, 3) Joint Target Activity + ASR(후속)
  • 평가 지표: WER 외에도 Target Recall, Background False Accept Rate, Clean Degradation을 종합적으로 평가
  • 로드맵: 2~3개월 내 문제 고정, 평가셋 구축, 초기 실험 진행 계획