PVI 모델 최적화 및 일본어 ASR 개선 현황 (2026-05-27)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1792. 2026-05-27.md

Summary

본 노트는 Primary Voice Isolation(PVI) 모델의 품질-속도 트레이드오프 문제와 일본어 ASR의 특정 도메인(주소, 숫자, 이름) 전사 오류 개선 현황을 기록한 일일 업무 노트입니다. PVI 모델은 Teacher 대비 CER 격차 10% 이내라는 품질 목표는 달성했으나, No-PVI 대비 4.35배 느린 속도(RTFx 29.46)로 인해 실시간 배포 목표(RTFx 100+)에는 미달하여 아키텍처 경량화(L8/L12) 또는 엔진 최적화가 필요함을 확인했습니다. 일본어 ASR은 ‘데스(Death)’ 소거, 번지수 인식, 필러 삭제, 그리고 성/이름 분리 인식 오류(WFST 구조 문제) 등 구체적인 개선 과제를 도출하고, Qwen3 ASR 벤치마킹을 계획 중입니다.

Key Points

  • PVI(MiniMossFormer2) 모델은 Teacher 대비 CER 격차 9.05%로 품질 기준은 통과했으나, 추론 속도가 No-PVI 대비 4.35배 느려(RTFx 29.46) 실시간 서비스 목표(RTFx 100+)에는 미달함.
  • PVI 속도 개선 방향: L16 모델의 품질을 유지하면서 L8/L12 아키텍처 변경 또는 Chunk/엔진 최적화를 통해 RTFx 60-100+ 달성 필요.
  • 일본어 ASR 주요 이슈: ‘데스’ 전사 후 ITN 제거 전략 변경, 번지수 인식 오류, 필러(간투어) 삭제, 성/이름 분리 시 WFST 구조 불일치로 인한 인식 실패.
  • 일본어 숫자 인식 오류: ‘4’가 ‘C’로, ‘2’가 ‘2E’로 인식되는 현상 확인 및 개선 필요.
  • 향후 계획: Qwen3 ASR을 Whisper 대비 벤치마킹, 일본어 가타카나 전사 모델 개발 및 언어모델 서프레스 적용 검토.
  • 인프라: 두나무(Dadumi) 프로젝트 재개, NVIDIA 컨테이너 툴킷 데몬셋 크래시 이슈 발생 중이나 기존 Triton 서비스는 정상 운영 중.