rtzr-stt 파이프라인 개선 및 STT 인식 오류 분석 (2025-11-12)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1596. 2025-11-12.md

Summary

본 노트는 rtzr-stt 프로젝트의 배포 자동화(pacman, helm chart) 개선 작업과 함께, MWW-TMN 프로젝트에서 발생한 STT(음성 인식) 오류 사례를 분석한다. 특히 ‘데스’->‘S/Z/0’ 전사 오류, 숫자 인식 왜곡, VAD 지연(latency) 문제 등을 훈련 데이터 편향 및 LM 영향으로 진단했다. 또한 두나무 프로젝트 설정 문제로 철수한 점과 현대캐피탈 로그 분석 결과를 기록하고 있다.

Key Points

  • rtzr-stt 배포 도구 개선: kubespray 버그 수정, 노드 정보 입력, MySQL/Admin 난수 자동 생성, Helm chart 값 수정 진행 중
  • 차트 기능 개선: Whisper 지원(TritonServer 옵션), configOverride 적용, SSO 타입 설정 완료
  • MWW-TMN STT 오류 패턴 분석: ‘4’->‘C’, ‘데스’->‘S/Z/0’(LM 영향), 연속 ‘0’ 오기, 3자리 발화 시 문자 추가 오류 등 발견
  • 성능 이슈: VAD 활성화까지 약 3초 지연, epd_time 0.8초 미만 응답 발생 등 불안정성 확인
  • 프로젝트 현황: 두나무 프로젝트는 설정 문제로 철수, 현대캐피탈 로그에서 일부 요청이 default-250m 모델로 라우팅됨 확인
  • 장기 목표: sims-trainer(VAD, Neural ITN, PII 지원) 및 단일 모델 기반 서빙 아키텍처 도입 검토