2026-02-16 업무: 일본어 ASR/TTS 모델 개선 및 S2 리빌드 진행

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1692. 2026-02-16.md

Summary

본 노트는 2026 년 2 월 16 일의 업무 일지로, 일본어 음성 인식 (ASR) 및 합성 (TTS) 모델의 품질 개선을 위한 데이터 정제 및 전략 수립, S2 리빌드 프로젝트의 커리큘럼 및 문서화 작업, 그리고 CTC 얼라이너 등 내부 도구의 버그 수정 및 성능 개선을 다룹니다. 특히 일본어 모델의 ‘데스 (desu)’ 처리 방식 변경 (전사 후 ITN 제거) 및 주소/번호 모델 개선이 핵심 이슈로 부각됩니다.

Key Points

  • 일본어 모델 개선: 주소 및 번호 모델의 정확도 향상 필요, ‘데스’ 처리를 기존 무시 방식에서 전사 후 ITN(Inverse Text Normalization) 에서 제거하는 방식으로 변경 결정
  • 데이터 및 TTS 작업: 짧은 발화 데이터 수집 및 TTS 정규화 프롬프트 개선 (1 만개 데이터셋 생성 및 저품질 샘플 검토), 가타카나 전사 모델 개발 계획
  • S2 리빌드: 커리큘럼 생성 및 용어 분류 (솔루션, Kubernetes 등) 진행, 노션 데이터 자동화 및 packer 버그 수정
  • 도구 개발: CTC 얼라이너의 청크 재생 기능 추가 및 얼라인 품질 개선 시도, gRPC bridge 연결 유지성 (websocket, bridgetec vgw) 검토