2026-05-21 업무: PVI 및 일본어 ASR 모델 개선 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1786. 2026-05-21.md

Summary

본 노트는 Primary Voice Isolation(PVI) 모델의 파일럿 훈련 진행 상황과 일본어 ASR 모델의 주요 개선 과제(주소, 이름, 숫자 인식 오류 및 ‘데스’ 소거 문제)를 기록하고 있다. 특히 일본어 모델의 경우 WFST 구조 조정, 필러 삭제, 그리고 TTS 데이터셋 정제(약 33만 개 대상)가 핵심 이슈로 부각된다. 또한 Qwen3 ASR 벤치마킹 계획과 제로원 TTS, Pronaia on-prem 등 기타 프로젝트의 진행 사항이 간략히 언급되어 있다.

Key Points

  • PVI: MiniMossFormer2 기반 1차/2차 파일럿 훈련 진행 중
  • 일본어 ASR 개선: 주소(번지수), 이름(성/이름 분리 인식 오류), 숫자(데스 소거, 4->C, 2->2E 오류) 모델 최적화 필요
  • 일본어 모델 아키텍처: 이름 인식 위해 prefix decoder 및 WFST 코퍼스(성+이름+성_이름) 재구성 검토
  • TTS 데이터 정제: 전체 182.5만 코퍼스 중 약 33만 개 대상 주소/이름/코드 데이터 정제 및 발음 오류 수정
  • 기타: Qwen3 ASR 벤치마킹 계획, 제로원 TTN 최종 발표 완료, dadumi 버그 수정