Parquet 오디오 데이터 추출 및 전처리 스크립트

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1054. 2024-05-20.md

Summary

이 노트는 Parquet 형식의 오디오 데이터셋에서 바이너리 오디오 파일과 전사(transcription) 데이터를 추출하여 개별 WAV 파일과 CSV로 저장하는 Python 스크립트들의 개발 과정을 기록한 것이다. FileNotFoundError 발생 사례, pandas/pyarrow를 이용한 다양한 추출 시도, 그리고 코드 생성을 위한 데이터 패턴 정의가 포함되어 있다.

Key Points

  • Parquet 파일 내 ‘audio’ 컬럼의 바이너리 데이터를 추출하여 로컬 디렉토리에 WAV 파일로 저장하는 로직 구현
  • 오디오 파일명과 함께 전사 텍스트(transcription)를 CSV 파일로 매핑하여 저장
  • 대용량 파일 처리를 위해 pandas 전체 로드 방식과 pyarrow row-group 청크 처리 방식 비교 시도
  • 특정 파일 경로 누락(FileNotFoundError) 오류 발생 및 디버깅 맥락 기록
  • 코드 생성을 위한 숫자 패턴(N1, N2) 및 태그 구조 정의