SommersV4 Transcribe 파이프라인 분석 및 DevOps 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 28. 2021-07-28.md

Summary

이 노트는 SommersV4의 음성 전사(Transcribe) 파이프라인 코드 분석 과정을 상세히 기록하고 있다. 음성 파일 저장부터 TDiar(시간 기반 화자 분리), Kaldi(음성 인식), WDiar(단어 기반 화자 분리), Verify(검증)에 이르는 4단계 RPC 처리 흐름과 데이터 구조(DVector, Interval 등)를 추적했다. 또한 수지바오 테스트 환경 차이, Vito Admin(Ruby) 실행 방법, S-48 API 분리 및 Swagger UI Docker 설정 등 미해결 과제를 정리했으며, DevOps 측면에서 인스턴스 용량 부족으로 인한 배포 실패 원인과 이미지 정리 정책 논의가 포함되어 있다.

Key Points

  • SommersV4 Transcribe 파이프라인은 TDiar → Kaldi → WDiar → Verify 의 4단계 RPC 처리로 구성됨
  • 각 단계별 데이터 구조(Interval, DVector, Ark 파일 등)와 처리 로직(디토큰화, 화자 분리 검증 등)을 코드 레벨에서 분석
  • 수지바오 테스트 코드 실행 시 환경 설정(vito vs 수지바오) 차이로 인한 문제 발생
  • Vito Admin(Ruby 기반)의 로컬 실행 방법 및 S-48 API 파일 분리, Notion 동기화 방향성 미정
  • DevOps 이슈: 인스턴스 용량(10G) 부족으로 배포 실패, 사용하지 않는 이미지 정리 정책(zx 코드) 도입 논의
  • 수지바오 DB 기록(UTC+0)과 로그(+8)의 시간대 불일치 및 삭제 데이터 동기화 문제 확인