ReturnZero 데이터셋 전처리 및 pysommers 파이프라인 디버깅

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1057. 2024-05-23.md

Summary

ReturnZero 프로젝트의 여러 음성 데이터셋(rtzr, fasterwhisper, reazonspeech 등) 전처리 진행 상황과 소요 시간을 기록함. 특히 파일명 내 공백으로 인한 pysommers 파싱 오류를 발견하고, 이를 해결하기 위한 공백 제거 코드 추가를 명시함. jas 데이터셋의 분할별 시간 통계도 포함됨.

Key Points

  • rtzr 및 fasterwhisper 데이터셋 재전처리 진행 중 (소요 시간 및 진행률 기록)
  • reazonspeech(2.3TB) 압축 해제 완료 및 pysommers 파이프라인 적용 시작
  • japanese-anime-speech 데이터셋에 대한 pysommers 스크립트 작성 중
  • 파일명 공백이 pysommers 오류를 유발하는 문제 발견 및 공백 제거 코드 도입
  • jas 데이터셋(train/test/raw)의 총 시간 및 분할별 시간 통계 기록