2026-01-19 업무: 제로원 TTS 데이터 파이프라인 및 일본어 ASR 모델 개선

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1664. 2026-01-19.md

Summary

본 노트는 2026 년 1 월 19 일의 업무 기록으로, ‘제로원’ 프로젝트의 TTS(Text-to-Speech) 데이터 전처리 파이프라인 구축과 일본어 ASR(Automatic Speech Recognition) 모델의 품질 개선이 핵심 주제입니다. 제로원 작업에서는 pysommers 기반 데이터 정제 코드와 tts-build-input, tts-generate-gold 명령어를 통한 골드 레이블 생성 프로세스가 기록되어 있습니다. 일본어 모델 관련해서는 주소/번호 모델 개선, ‘데스 (death)’ 음성의 전사 후 ITN(Inverse Text Normalization) 단계에서 제거하는 전략 변경, 필러 처리, 그리고 가타카나 전사 모델 개발과 언어모델 서프레스가 주요 이슈로 다뤄집니다. 또한 두나무 인스턴스 업데이트 보류 및 worker 동적 인자 변경 리뷰 대기 상태도 언급됩니다.

Key Points

  • 제로원 TTS 데이터 파이프라인: pysommers 라이브러리를 활용한 데이터 정제 및 tts-build-input, tts-generate-gold 스크립트를 통한 입력 데이터셋 및 골드 레이블 생성 프로세스 정의.
  • 일본어 ASR 모델 개선 전략: 주소 및 번호 모델 성능 향상 목표.
  • 데스 (Death) 음성 처리 규칙 변경: 기존 무시 방식에서 ‘전사 후 ITN 단계에서 제거’ 방식으로 전환하여 데이터 품질 관리.
  • 가타카나 모델 개발: 가타카나 전사 모델 개발 및 언어모델 서프레스 (suppression) 적용.
  • 기타 업무: 두나무 인스턴스 업데이트는 협업 요청 시까지 유지, worker 동적 인자 변경 사항 리뷰 대기 중.