ReturnZero E2E 파이프라인 실행 순서 및 데이터 구조 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 496. 2022-11-08.md

Summary

2022-11-08 일지. ReturnZero 프로젝트의 음성 인식 파이프라인(VAD -> SD -> WDIAR -> ARS -> E2E) 실행 순서와 코드 구조(vito-server)를 분석 중. 특히 utterance 단위를 레코드 단위로 통합하는 uttertorecord 로직과 Utterance 객체 생성 방식, 그리고 TDIAR -> E2E -> WDIAR -> ITN 순서의 데이터 흐름과 JSON 포맷 예시를 확인함.

Key Points

  • ReturnZero E2E 파이프라인 단계: VAD -> SD -> WDIAR -> ARS -> E2E
  • vito-server 코드 기반의 inference 로직 분석: jobs 준비 -> vad 적용 -> interval 추출 -> new_jobs 매핑
  • Utterance 객체 생성 시 wav, rec_id, st, ed, text 등 필드 통합 방식 검토
  • uttertorecord: utterance 들을 하나의 레코드 단위로 다루기 위한 클래스로 추정
  • 최종 처리 순서: TDIAR -> E2E -> WDIAR -> ITN
  • 출력 데이터 포맷 예시: start_at/duration 기반 문장 단위 및 word 단위 JSON 구조