RTZR 일본어 STT 개발 이력 및 모델 레지스트리 구조

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1629. 2025-12-15.md

Summary

본 노트는 RTZR의 일본어 STT(Sommers-ja) 모델 개발 타임라인(2021~2025)과 주요 기술적 이슈(세그멘테이션, 가타카나 전사, VAD 등)를 정리한 것이다. 또한, 배포용 모델 관리를 효율화하기 위해 도입된 ‘모델 레지스트리’의 4단계 계층 구조(task/family/interface/version)와 그 목적을 설명한다. 현재 진행 중인 웰컴용 패키징, VAD 필터 시험, dadumi 머지 등 단기 업무 이슈도 포함된다.

Key Points

  • 일본어 STT 개발 이력: 2021년 Kaldi 기반 초기 개발부터 2025년 SIMS 배포까지, MWW 협력 데이터 수집 및 mel2vec 도입 등 주요 마일스톤 기록.
  • 기술적 과제: MWW 데이터의 루즈한 세그멘테이션 문제, 가타카나 모델의 LM 편향 및 incremental 학습 이슈, VAD(Near-field) 개선 필요성.
  • 모델 레지스트리 도입: 산발적인 모델 관리의 비효율 해소 및 패키징 자동화를 위해 task/family/interface/version 4단계 구조로 표준화.
  • 레지스트리 구조: interface 수준에서 입출력 호환성을 보장하며, leaf-version 에 ONNX/LM/manifest.yaml 등을 포함하여 배포 환경(NVIDIA GPU/Triton) 최적화 지원.
  • 단기 업무: 웰컴용 translator 패키징, Pronaia-engine VAD 테스트, dadumi 코드 머지, 두나무 인스턴스 업데이트 협업 대기.