프로나이아 모델 배포 및 스마트 어터런스 처리 로직 설계

Source

  • Field Notes/ReturnZero/Daily Notes/Day 492. 2022-11-04.md

Summary

프로나이아(ProNaiya) 모델의 전사 결과 확인 및 Triton 서버 배포 과정에서 conformer_25_ensemble 모델 충돌로 인한 타임아웃 문제를 해결함. Fairseq API 입력 오류를 겪으며 VAD 기반 음성 분할의 어려움을 인지함. 또한 ‘스마트’ 기능 구현을 위해 화자별 어터런스(utterance) 정리, 300ms 기준 발화 병합, 메타데이터(발화 ID, 시작/끝 지점) 유지, 그리고 병합된 발화에 대한 문장 나누기(Sentence Splitting)와 원본 발화 구간 매핑 로직을 설계함.

Key Points

  • 프로나이아 모델 전사 결과 확인 및 Triton 서버 모델 로딩 성공
  • Triton 서버 타임아웃 원인: conformer_25_ensemble 모델의 비의도적 실행 (cutoff 옵션 적용 필요)
  • Fairseq API 입력 형식 오류 발생 및 VAD 기반 음성 분할의 기술적 난관 인지
  • 스마트 어터런스 처리 파이프라인 설계: 화자별 정리 -> ID 부여 -> 300ms 이내 발화 병합
  • 병합 시 메타데이터(발화 ID, 시작/끝 지점) 보존 및 원본 발화 구간과의 매핑 로직 정의
  • 문장 나누기 후 원본 발화 구간 기준 결과 할당 및 predict_single_sentence() 적용 계획