2026-02-12 업무: 일본어 ASR/TTS 모델 개선 및 제로원 준비

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1688. 2026-02-12.md

Summary

본 노트는 2026 년 2 월 12 일의 업무 기록으로, 주요 초점은 일본어 음성 인식 (ASR) 및 합성 (TTS) 모델의 성능 개선에 맞춰져 있다. 구체적으로 일본어 주소 및 번호 모델에서 ‘데스 (desu)‘와 ‘필러’ 처리 방식 변경 (전사 후 ITN 제거), 가타카나 전사 모델 개발, 짧은 발화 데이터 증강 및 정제 (pysommers 화) 가 핵심 과제이다. 또한 ‘제로원’ 프로젝트 대비 및 킥오프, S2 리빌드 커리큘럼 준비, 그리고 웰컴/현대캐피탈 프로젝트의 ITN/TTS 설정 변경 등 다수의 병행 업무가 기록되어 있다.

Key Points

  • 일본어 모델 개선: 주소/번호 모델의 ‘데스’ 처리 전략 변경 (전사 유지 -> ITN 에서 제거), 필러 문제 해결, 가타카나 전사 모델 개발 및 언어모델 서프레스 적용.
  • 데이터 엔지니어링: 짧은 발화 데이터 수집 및 TTS 샘플 생성, WFST 기반 데이터 정제 및 pysommers 포맷 변환, vocab 재계산.
  • 프로젝트 관리: 제로원 프로젝트 킥오프 및 대비, S2 리빌드 우선순위 상향 및 커리큘럼 준비.
  • 기타 업무: 웰컴 프로젝트 (이미지 반입, 모델/ITN 변경), 현대캐피탈 프로젝트 (ITN/Numberplate 설정 조정).
  • 일정 계획: 2 월 23 일 데이터셋 확정, 2 월 45 일 훈련, 2 월 6 일 마일스톤 등 구체적인 개발 일정이 명시됨.