다국어 RTFx 성능 측정 및 S2 리빌드 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1716. 2026-03-12.md

Summary

2026-03-12 일일 업무 노트로, 다국어 실시간 번역(STT+Translation) 서비스의 L40s 환경 성능 측정 실험 결과와 S2 시스템 리빌드 문서화 진행 상황을 기록함. 주요 관심사는 Whisper/Conformer 및 TranslateGemma 모델의 TensorRT-LLM 서빙 시 지연 시간(Latency)과 실시간 팩터(RTFx)를 측정하여 동시 채널 수를 산정하는 것이며, 일본어 전사 모델 개선(데스/필러 처리) 등 기술적 이슈도 포함됨.

Key Points

  • 다국어 RTFx 측정 실험: L40s 환경에서 Whisper/Conformer(STT)와 TranslateGemma 12b(번역) 모델을 TensorRT-LLM으로 서빙하여 성능 테스트 진행.
  • 성능 목표: 첫 번역 표시 avg ≤ 0.8s, p95 ≤ 1.5s; 안정화 지연 avg ≤ 1.5s, p95 ≤ 2.5s.
  • 실험 결과 요약: 동시성(concurrent)과 실시간 모사 옵션(-r) 유무에 따라 Latency와 RTFx가 크게 변동. 상세 수치 및 로그는 원문 참조.
  • S2 리빌드: GPT 5.4 출시를 계기로 빌더 재정비 및 TTS, Batch, SIMS(agend/admin/eval/audit) 구조도 등 문서 정리 진행 중.
  • 기술 개선 사항: 일본어 주소/번호 모델 개선(데스 전사 후 ITN 제거, 필러 처리), 가타카나 전사 모델 개발, 한국어 짧은 발화 훈련 등.