PVI 모델 개선 및 일본어 ASR 이슈 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1783. 2026-05-18.md

Summary

본 노트는 Primary Voice Isolation(PVI) 모델의 MiniMossFormer2 훈련을 위한 라벨링 재실행 및 아키텍처 수정 계획, 그리고 일본어 ASR 모델에서 발생하는 데스(음절) 처리, 필러 삭제, 주소/이름 인식 오류 등 주요 이슈와 개선 방향을 기록한 업무 일지이다.

Key Points

  • PVI: MossFormer2 Distillation을 위해 v8 라벨링 재실행 및 오류 분석 계획 수립
  • PVI: Student 모델의 타겟을 primary-only에서 spk1/spk2 2채널로 변경하여 순열 불변성 문제 해결 시도
  • 일본어 ASR: 데스(음절) 전사 후 ITN에서 제거하는 방식으로 변경 필요성 제기
  • 일본어 ASR: 필러(간투어) 삭제, 주소(번지수) 인식 오류, 이름 모델의 WFST 구조 개선 필요
  • 일본어 ASR: 숫자 인식 오류(4->C, 2->2E) 및 Qwen3 ASR 벤치마킹 계획