ReturnZero Day 1643: 모델 레지스트리 구조화 및 전사 장애 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1643. 2025-12-29.md

Summary

본 노트는 ReturnZero 팀의 업무 일지로서, 모델 레지스트리(Model Registry)의 표준화 구조(4단계 계층) 정의와 TTS/ASR 관련 패키징 작업을 다룹니다. 또한 VITO 고객사 요청으로 인한 전사 서비스 장애(429 에러, OOM)의 원인(인프라 준비 부족, 타임아웃 미설정 등)과 대응 과정을 상세히 기록하고 있습니다. 일본어 모델 개선 및 웰컴용 솔루션 스택 빌더 개발 현황도 포함되어 있습니다.

Key Points

  • 모델 레지스트리 구조 정의: task/family/interface/leaf-version 의 4단계 계층 구조로 모델 관리 효율화 및 배포 자동화 목표
  • 전사 장애 분석: VITO 고객사 장시간 통화 지원 요청으로 인한 트래픽 폭증 및 e2eworker OOM 발생, 인프라 타임아웃 부재가 주요 원인
  • TTS 및 ASR 작업: MeloTTS API 개발, triton 서빙 환경 리팩토링, 일본어 주소/번호 모델 개선(데스 처리 방식 변경)
  • 웰컴용 솔루션: rtzr-stt-solution-stack-builder 개발 중, pre-commit 도입 및 테스트 환경 구축 진행
  • 인프라 개선 필요성: 통합 큐 인프라의 서비스 수준 보장(SLA) 미흡 문제 제기, worker 스케일링 메트릭 및 리소스 할당 조정