S2 리빌드 및 다국어 RTFx 측정 (2026-03-11)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1715. 2026-03-11.md

Summary

본 노트는 S2 시스템 리빌드 관련 문서화 작업과 다국어 음성 인식(RTFx) 성능 측정을 위한 인프라 구축 과정을 기록한다. 주요 이슈로는 일본어 주소/번호 모델 개선(데스 처리, 필러 제거), 가타카나 전사 모델 개발, 그리고 Whisper 모델을 TensorRT-LLM(TRTLLM)으로 최적화하여 Triton Server에서 서빙하는 기술적 장벽(메모리 증폭, 모델 루트 구조 분리)이 다뤄진다. 특히 GPU 메모리 한계 내에서 배치 사이즈와 KV 캐시를 조정하며 최적화하는 과정과, 기존 파이프라인 구조에 번역기(Translator) 모델을 통합하기 위한 아키텍처 재설계 고민이 포함되어 있다.

Key Points

  • S2 리빌드: GPT 5.4 기반 빌더 정리 및 TTS, Batch, SIMS(agenda, admin, eval, audit, db) 구조도 문서화 진행
  • 일본어 ASR 개선: 주소 모델(데스, 번지수), 번호 모델(데스 전사 후 ITN 제거, 필러 처리), 가타카나 전사 모델 개발 및 언어모델 서프레스 적용
  • Whisper TRTLLM 최적화: Whisper Large V3 모델을 TRTLLM 엔진으로 변환하여 Triton Server 서빙 시도
  • 인프라 제약 및 해결: Juno 환경에서 GPU 메모리 증폭 문제 발생, 배치 사이즈(8->4) 및 KV 캐시(0.4->0.1) 조정 시도
  • 아키텍처 변경 필요성: 기존 단일 모델 루트 구조상 Translator 모델 통합 어려움, TTS처럼 별도 모델 선택 블록으로 분리하는 방안 모색
  • 환경 설정: Vagrant(Libvirt) 및 Nerdctl/Docker Compose를 활용한 로컬/온프레미스 테스트 환경 구축