PVI 및 일본어 ASR 모델 개선 현황 (2026-05-22)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1787. 2026-05-22.md

Summary

본 노트는 Primary Voice Isolation(PVI) 모델의 손실 함수 조정 실패와 재훈련 계획, 그리고 일본어 ASR 모델의 주요 오류(데스 소거, 필러 처리, 주소/이름/숫자 인식 오류)에 대한 분석과 개선 방향을 기록한 일일 업무 메모입니다. 특히 일본어 주소와 이름 모델의 WFST 구조 수정 및 TTS 데이터셋 정제 작업이 핵심 이슈입니다.

Key Points

  • PVI: MiniMossFormer2 훈련 중 loss function 수정 후 성능 저하 발생, teacher 모델과의 CER 격차 10% 이내 달성을 목표로 재연구 필요
  • 일본어 ASR 개선: 데스(음절말 자음) 전사 후 ITN 제거 전략 변경, 필러(간투어) 삭제, 숫자 인식 오류(4->C, 2->2E) 해결 필요
  • 일본어 주소/이름 모델: 번지수 인식 오류 및 ‘성+이름’ WFST 구조 문제 해결을 위한 코퍼스 재구성 및 prefix decoder 모델 검토
  • 데이터 정제: 일본어 TTS 데이터셋(약 33만 개) 내 주소 숫자 읽기 오류 수정 및 벤치마킹을 위한 Qwen3 ASR 테스트 계획