TED 일본어 데이터셋(테스트용)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 765. 2023-08-04.md

Summary

이 노트는 ‘pysommers’ 프레임워크를 사용하여 일본어 학습용 데이터셋(TEDxJP, MWW)을 구성하기 위한 기술적 구현 메모입니다. soundfile 라이브러리를 통한 오디오 처리, CSV 및 WAV 파일의 glob 기반 수집, 그리고 Utterance 객체 생성 시 필요한 메타데이터 매핑(발화 ID, 화자 정보, 샘플링 레이트 등)에 대한 구체적인 코드 로직과 파일 경로 정보를 기록하고 있습니다.

Key Points

  • pysommers 프레임워크의 Dataset, Utterance, ScpType 등 관련 모듈과 타입 정의 활용
  • MWW 데이터셋의 result_data.csv 파일에서 srcID, inputText, example, writer, wavID 등 필드 추출
  • WAV 파일 경로 매핑(wav_dict) 및 soundfile.read()를 통한 오디오 데이터와 샘플링 레이트(sr) 로드
  • 오디오 길이 계산(sr, len(data)) 및 Utterance 객체 생성 시 spk_info, utt_id_type, scp_type 등 메타데이터 할당