한국어 TTS 정규화 모델 개발 및 일본어 ASR 개선 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1699. 2026-02-23.md

Summary

본 노트는 2026 년 2 월 23 일 기준 ‘한국어 TTS 텍스트 정규화 경량 모델 개발’ 프로젝트의 진행 상황과 일본어 음성 인식 (ASR) 모델 개선 이슈를 기록한 일일 업무 노트입니다. 한국어 TTS 분야에서는 LLM 기반의 자동 데이터 생성 파이프라인을 구축하여 약 35 만 건의 골드 데이터를 생성하고, 품질 검증을 통과한 데이터로 KoT5 등 T5 계열 모델을 시범 훈련한 결과를 정리합니다. 또한 일본어 ASR 분야에서는 ‘데스 (desu)’ 처리 방식 변경, 주소 및 번호 모델 개선, 가타카나 전사 모델 개발 등의 과제를 명시하고 있습니다.

Key Points

  • 한국어 TTS 정규화: LLM 기반 Normalize/Evaluate 이중 프롬프트 구조를 통해 약 35 만 건의 학습 데이터 생성 (품질 통과율 약 94%)
  • 모델 실험: KETI, Google, Wisenut 등 다양한 T5 베이스 모델 비교 및 KoT5-small 시범 훈련 진행 (메모리 점유율 약 240MB)
  • 데이터 파이프라인: 입력 빌드 -> LLM 정규화 -> 품질 게이트 -> 데이터셋 빌드의 4 단계 자동화 프로세스 운영
  • 일본어 ASR 개선: ‘데스’를 전사 후 ITN 에서 제거하는 방식으로 변경, 주소/번호 모델 개선 및 가타카나 전사 모델 개발 계획
  • 향후 계획: 3 월 중 모델 구조 확정 및 지식 증류 (Distillation) 를 통한 초경량 모델 구현 목표