음성 데이터 전사 및 변환 작업 현황 (2024-05-22)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1056. 2024-05-22.md

Summary

ReturnZero 프로젝트의 음성 데이터셋(rtzr, fasterwhisper, reazonspeech, japanese-anime-speech) 전사 및 변환 작업 중 발생한 오류(단위 착오, 데이터 수량 오산)와 재실행 현황, 예상 소요 시간을 기록한 일일 업무 노트입니다.

Key Points

  • rtzr 데이터셋: 시간 단위(sec/ms) 착오로 인한 전사 실패 후 재시작, 배치 크기 조정으로 약 43~48시간 소요 예상
  • fasterwhisper 데이터셋: 데이터 수량 오산(100만 건) 및 낮은 GPU 점유율로 인해 재전사 진행 중, 약 55~60시간 소요 예상
  • japanese-anime-speech: Parquet 파일 생성 완료(73,004 건, 8.83GB), 오디오 8kHz 변환 및 pysommers 데이터셋 재구성 중
  • reazonspeech: 2.3TB(약 35,000 시간) 대용량 데이터 압축 해제 및 변환 작업 진행 중