Primary Voice Isolation 평가 및 일본어 ASR 개선, 서비스 채널 용량 산정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1751. 2026-04-16.md

Summary

본 노트는 2026-04-16 일일 업무 기록으로, 세 가지 주요 기술 이슈를 다룬다. 첫째, Primary Voice Isolation(PVI) 파이프라인의 성능 평가 결과, 단순 리샘플링(P1)은 성능 열화를 유발하지 않음을 확인했다. 둘째, 일본어 ASR 모델 개선 방향을 정리했는데, 주소/번호 모델의 ‘데스(Desu)’ 처리 전략 변경, 필러 삭제, 이름 WFST 구조 개선, 가타카나 전사 모델 개발 등이 포함된다. 셋째, 하드웨어 풀로드 용량(M)을 기반으로 통계적 다중화(Statistical Multiplexing)를 반영한 실제 판매 가능 동시 채널 수(N)를 산정하는 확률적 모델(이항분포 및 정규근사)과 파라미터(ε, p, r0~r2)를 정의했다.

Key Points

  • PVI 평가: 리샘플링만 수행한 P1 모델은 baseline 대비 성능 열화가 없음을 확인(무죄).
  • 일본어 ASR 개선: 주소/번호 모델에서 ‘데스’를 전사 후 ITN에서 제거하는 방식으로 변경, 필러 삭제, 이름 모델의 WFST 구조(성+이름) 재정의, 가타카나 전사 모델 개발 필요.
  • 서비스 채널 용량 산정: 하드웨어 최대 용량(M)과 허용 오버로드 확률(ε)을 기반으로, 1채널 서비스(이항분포)와 2채널 통화 서비스(이산 확률변수 합)의 동시 처리 가능 채널 수(N)를 계산하는 수식과 파라미터 정의.
  • 용량 산정 파라미터: 1채널 speech active 확률(p≈0.385), 2채널 통화 방향 확률(r0, r1, r2), 안전여유 계수(q_ε) 등을 포함한 표준/보수/공격적 시나리오별 ε 조견표 제공.