2026-04-09 업무: PVI, 일본어 ASR 개선 및 TTS 관리 기능 개발

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1744. 2026-04-09.md

Summary

본 노트는 2026 년 4 월 9 일의 업무 일지로, Primary Voice Isolation(PVI) 평가 데이터셋 생성 및 MossFormer2 테스트, 일본어 ASR 모델의 데스 (desu) 처리 및 주소/이름 인식 개선, 그리고 TTS 치환 목록 관리 페이지의 요구사항 분석과 구현 계획을 다룹니다. 또한 Pacman 빌더 리뷰 및 온콜 대응 등 다양한 기술 이슈를 기록하고 있습니다.

Key Points

  • Primary Voice Isolation(PVI): MossFormer2 기반 필터 구현을 위해 ksponspeech 기반 평가 데이터셋 생성 코드 점검 및 테스트 진행.
  • 일본어 ASR 개선: ‘데스’ 전사 후 ITN 에서 제거하는 방식으로 변경, 필러 삭제, 주소 (번지수) 및 이름 인식 문제 해결을 위한 WFST 및 데이터셋 확보 필요.
  • TTS 치환 목록 관리: Melo-preprocessor 의 사전 파일을 직접 수정하는 대신 TSV 파일을 읽도록 변경하고, CRUD API 및 k8s 재배포 기능을 갖춘 관리 페이지 개발 요구사항 정의.
  • 기타 업무: Pacman 빌더 리뷰 (L4 파일 이상 문제), dadumi 버그 샘플 확보, 온콜 대응.