Pronaia 온프레미스 세미나 준비 및 데이터 파이프라인 문제 해결

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1006. 2024-04-02.md

Summary

Pronaia 온프레미스 세미나 준비 과정에서 대용량 오디오 데이터 전사(Whisper) 및 rtboost/pysommers 데이터셋 구축 시 발생한 기술적 장애(VAD 처리 지연, 디렉토리 구조 호환성)를 해결하기 위한 실험과 대안 모색 과정을 기록한 일지입니다.

Key Points

  • 대용량 오디오(약 10,731 시간) 전사 작업 중 프로세스 종료 이슈 발생, 기존 결과물 활용 결정
  • rtboost 데이터셋 빌더의 디렉토리 구조(test/train 구분) 제한으로 인해 개별 생성 후 pysommers 기반 합치기로 전환
  • 대용량 파일(590MB) 처리 시 VAD 속도 저하 문제 발생, 파일 분할(20초 단위) 또는 group_record 옵션 활용 검토
  • 일본어 얼라인 데이터의 문장부호 처리 및 CTM 복구 작업 진행