rtzr-stt 스택 빌더 개편 및 VAD/모델 서빙 아키텍처 논의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1612. 2025-11-28.md

Summary

본 노트는 rtzr-stt 솔루션의 Helm 차트 개선, 스택 빌더(Stack Builder)의 노드 제어 및 이미지 동기화 로직 개편, 그리고 KISA R&D 서버 환경 구축을 다룬다. 특히 VAD(Voice Activity Detection) 필터링을 위한 DeepFilterNet 및 Pronaia 엔진 검토, Whisper/Translator 모델의 차트 통합, 그리고 장기적인 모델 서빙 및 컴파일 파이프라인(Ansible 기반) 표준화 방향성을 논의한다. 브라우저 기반 DNN 앱(WhisperWeb, Kokoro)의 기술적 배경(transformer.js)도 언급된다.

Key Points

  • rtzr-stt Helm 차트 개선: FasterWhisper와 TensorRT 차이 분석 및 차트 통합, solution-values/config 기반 설정 관리 체계화
  • 스택 빌더 개편: 노드 제어(hosts.yaml) 및 인벤토리 관리 개선, 이미지 다운로드 동기화 강화, GPU 타입(L40→sm9.0 등) 매핑 유연성 확보
  • VAD 필터링 기술 검토: DeepFilterNet(48kHz 제한) 및 Pronaia 엔진 기반 간이 필터 구현 계획, Grapheme decoder 구현 과제
  • KISA R&D 서버 구축: Docker registry secret 발급 및 Kubernetes 환경 설정, 라이선스 서버 연동
  • 장기 아키텍처 비전: sims-trainer를 통한 다중 모델(VAD, Neural ITN, PII) 지원, Ansible 기반 모델 컴파일/배포 자동화, 단일 모델 기반 다중 CC 모델 선택 구조
  • 브라우저 기반 DNN 기술 동향: transformer.js 기반 WhisperWeb 및 Kokoro TTS 앱 분석