ReturnZero Day 1794: PVI 및 일본어 ASR 개선 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1794. 2026-05-29.md

Summary

본 노트는 ReturnZero 프로젝트의 Day 1794 업무 기록으로, Primary Voice Isolation(PVI) 모델의 손실 함수 개선 실패와 재훈련 계획, 일본어 ASR 모델(주소, 번호, 가타카나)의 특정 오류(데스 소거, 필러, 번지수 인식 등) 분석 및 개선 방향을 다룹니다. 또한 Qwen3 ASR 벤치마킹, TTS 비용 발생, 인텔 팀원 퇴사 등 부가적인 프로젝트 현황을 포함합니다.

Key Points

  • PVI: MiniMossFormer2 훈련 중 loss function 다듬기 시도했으나 실패, teacher 모델과의 CER 격차 10% 이내 목표 재설정
  • 일본어 ASR: 주소(번지수), 번호(데스/필러 처리), 가타카나 전사 모델 개선 필요성 확인
  • 일본어 이름 모델: WFST 구조상 성/이름 분리 인식 오류 발생, prefix decoder 및 코퍼스 재구성 검토
  • 벤치마킹: Qwen3 ASR(영어 최적화)를 Whisper 대비 벤치마킹 계획
  • 기타: TTS 처리 비용 약 500달러 발생, 인텔 팀원(Kay) 퇴사 예정