한국어 TTS 텍스트 정규화(TN) 경량 모델 개발 진행 상황 (2026-02)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1700. 2026-02-24.md

Summary

본 노트는 4월 말까지 온디바이스용 경량 TTS 텍스트 정규화 모델(5M 파라미터 이하) 개발을 목표로 하는 프로젝트의 2월 진행 상황을 기록한 일일 업무 노트입니다. 핵심 내용은 LLM 기반의 자동 데이터 생성 및 검증 파이프라인 구축, 약 35만 건의 골드 데이터셋 생성(품질 통과율 약 94%), 그리고 T5 계열(KoT5, mT5 등) 베이스 모델들의 시범 훈련 및 토크나이저(BPE vs SentencePiece) 비교 실험 결과입니다. 또한 일본어 ASR 모델 개선(주소, 번호, 가타카나) 및 제로원 프로젝트 대응 등 병행 업무 사항도 포함되어 있습니다.

Key Points

  • 프로젝트 목표: 4월 말까지 차량 내 저지연 추론이 가능한 5M 파라미터 이하의 한국어 TTS 텍스트 정규화 경량 모델 개발.
  • 데이터 파이프라인: LLM을 활용한 ‘정규화(Normalize) -> 검증(Evaluate) -> 재시도(Retry)’ 이중 프롬프트 구조의 자동화 파이프라인 구축.
  • 데이터셋 현황: 약 35만 건의 입력 데이터 중 품질 게이트 통과율 약 94%(329,033건)를 기록하며 2차 학습 데이터셋 생성 완료. 과거 대비 저품질 데이터 비율이 약 89% 감소.
  • 모델 실험: KETI, Google, Wisenut 등 다양한 T5 기반 베이스 모델 비교 실험 진행. KoT5-small(60M) 시범 훈련 시 성능 향상 및 약 240MB 메모리 점유율 확인.
  • 토크나이저 전략: 한국어 TN 특성에 적합한 토크나이징 방식을 위해 BPE와 SentencePiece(Unigram) 방식의 비교 분석 중.
  • 향후 계획(3월): 모델 구조 최종 확정 및 지식 증류(Distillation) 기법 적용을 통한 초경량 모델 구현 집중.
  • 병행 업무: 일본어 ASR 모델 개선(주소/번호/가타카나 전사 및 ITN 처리), 제로원 프로젝트 대응, 현대캐피탈 운영계 모델 반입 등.