일본어 STT/TTS 모델 개선 및 S2 리빌드 진행 상황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1690. 2026-02-14.md

Summary

본 노트는 2026 년 2 월 14 일 기준 ReturnZero 프로젝트의 주요 업무 현황을 기록한 일일 노트이다. 핵심 주제는 일본어 음성 인식 (STT) 및 합성 (TTS) 모델의 성능 개선으로, 구체적으로 ‘데스 (desu)’ 처리 전략 변경 (전사 후 ITN 제거), 주소/번호 모델의 번지수 및 필러 문제 해결, 가타카나 전사 모델 개발 등을 다룬다. 또한 짧은 발화 훈련을 위한 TTS 데이터 생성 및 정제 (pysommers 화), S2 리빌드를 위한 커리큘럼 준비 및 A-RAG 도입 시도, 그리고 packer 버그 수정과 gRPC/websocket bridge 연결 유지성 개선 등 인프라 작업의 진행 상황과 일정 (2 월 초 데이터셋 확정 및 훈련) 을 포함한다.

Key Points

  • 일본어 STT 모델 개선: ‘데스’는 전사 후 ITN 에서 제거하는 방식으로 변경, 주소 모델의 번지수/호실 구분 (쉼표 사용), 번호 모델의 필러 문제 해결
  • 일본어 TTS 및 데이터: 짧은 발화 자연스러움 향상을 위한 TTS 데이터 생성, 가타카나 전사 모델 개발 및 언어모델 서프레스
  • 데이터 파이프라인: 주소 오디오 데이터 정제 및 pysommers 화, CTC force aligner 를 이용한 증강 데이터 생성, vocab 재계산
  • 프로젝트 일정: 2 월 23 일 데이터셋 확정, 2 월 45 일 훈련 예정
  • S2 리빌드: 커리큘럼 준비 우선순위 상향, A-RAG 도입을 통한 데이터 정제 시도
  • 인프라 및 기타: packer 버그 수정 및 대시보드화, gRPC/websocket bridge 연결 유지성 개선, 제로원 (ZeroOne) 관련 체크 및 킥오프 준비