RTBoost Dataset VAD 오류 및 전처리 파이프라인 수정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1027. 2024-04-23.md

Summary

NFS 복구 후 RTBoost 데이터셋 생성 과정에서 VAD(Voice Activity Detection) 설정 문제로 인해 빈 값이 2초 단위로 저장되는 오류가 발생함. 이를 해결하기 위해 VAD_THRESHOLD 및 VAD_COLLAR 파라미터 조정, 파일 분할(segmentation) 작업, 그리고 validation 로직(블랙리스트 단어, 연속 영어 단어 필터링) 개선을 계획함.

Key Points

  • VAD 설정 오류로 인한 빈 utterance 생성 문제 진단
  • VAD_THRESHOLD(0.45) 및 VAD_COLLAR(0.1) 조정 실험
  • 데이터셋 파일 분할(segmentation) 및 학습용 전처리 준비
  • Validation 로직 통일: 블랙리스트 단어 및 연속 영어 단어(False 처리) 적용