RTZR 일본어 STT 개발 이력 및 인프라 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1631. 2025-12-17.md

Summary

본 노트는 RTZR의 일본어 음성인식(STT) 솔루션 개발 이력(2021~2024)을 정리하고, 현재 진행 중인 업무 이슈(VAD 필터링, 웰컴용 패키징, SIMS 파일 처리 등)를 기록한 일일 업무 노트입니다. 특히 일본어 모델의 도메인별 세분화(일반, 주소, 이름, 코드)와 ITN(역정규화) 개선 과정, 그리고 NFS 기반 연구 데이터 공유 인프라 구조를 상세히 기술하고 있습니다.

Key Points

  • 일본어 STT 개발은 2021년 Kaldi 기반 초기 개발을 시작으로, 2022년 실시간 STT 요구에 맞춰 Conformer-CTC 모델로 전환 및 pronaia-engine 서빙 구축
  • 2023년 MWW 프로젝트와 연동하며 도메인별 모델(일반, 주소, 이름, 숫자/코드)로 세분화하고, VAD(Voice Activity Detection) 및 ITN 성능 개선에 집중
  • 2024년 현재는 코드/숫자 모델 통합, Triton 서빙 최적화, SIMS-k8s 도입 및 웰컴용 솔루션 패키징(rtzr-stt-solution-stack-builder) 진행 중
  • 연구 인프라로 NFS(/nfs/train)를 활용하여 ASR, TTS, NLP 등 다양한 라브(lab) 데이터와 모델을 공유하며, 아카이브(/nfs/archive)는 불변 데이터 저장소로 역할
  • 현재 주요 이슈: VAD NF 필터 시험(Pronaia engine), 웰컴용 translator 패키징 및 차트 개선, SIMS 파일 암호화 및 처리, worker 동적 인자 변경 검증