ReturnZero Day 1622: STT 파이프라인 개선 및 배포 인프라 작업

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1622. 2025-12-08.md

Summary

이 노트는 ReturnZero 프로젝트의 일일 업무 기록으로, STT(음성인식) 파이프라인의 핵심 구성 요소(VAD, ITN, Grapheme decoder) 개발 및 검증 현황을 정리한다. 특히 VAD 필터링(DeepFilterNet, Pronaia engine)과 일본어 모델 개선(주소 인식, ITN)에 대한 기술적 고민과 실험 결과를 포함한다. 또한 Kubernetes 기반 배포 인프라(Pacman, Helm charts, Stack Builder)의 개선 사항과 제로원 프로젝트의 일정 및 LLM 관련 문제점(숫자 인식 취약성, False Positive)을 논의한다.

Key Points

  • STT 파이프라인 구성 요소 개발: VAD NF 필터(Pronaia engine), Grapheme decoder, 번호판 모델 ITN, worker dynamic narg 변경 사항이 리뷰 대기 또는 검증 단계에 있음.
  • VAD 및 오디오 처리: DeepFilterNet(48kHz 제약) 검토 및 VAD 온라인 v3 파이프라인 설정(임계값, 마진 시간 등) 정리. Redis 기반 VITO worker 디버깅 절차 기록.
  • 배포 인프라 개선(Pacman/Stack Builder): FasterWhisper/TensorRT 차트 비교, Helm 스키마 검증 문제 해결, solution-values/config 구조 개편, SIMS 및 SSO 설정 통합.
  • 일본어 모델 연구: 주소 인식 오류(숫자, 유사 주소) 분석 및 TTS 오디오 추가 학습 검토. ITN, 모델 분리(코드/숫자, 주소, 이름), dynamic length, SIMS 도입 등 연구 히스토리 정리.
  • 제로원 프로젝트: 1월 시작~4개월간 진행 예정. LLM의 정규화 데이터 부족(숫자 읽기 취약) 및 False Positive 방지(과잉 교정) 문제 해결 필요.
  • 장기적 목표: sims-trainer를 통한 다양한 모델(VAD, Neural ITN, PII) 지원, 단일 모델 기반 서빙 구조화, Ansible을 활용한 모델 컴파일 및 배포 자동화.