pysommers 데이터셋 전사 및 파일 매핑 작업 (2024-04-17)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1021. 2024-04-17.md

Summary

일본어 유튜브 데이터셋(pysommers)의 전사 파일 관리 및 경로 매핑 작업을 기록한 일지입니다. 전사 전/후 파일 구조를 정의하고, 특정 파일들의 ID 목록을 나열했으나, 파일명만 있고 실제 경로 정보가 누락된 문제를 발견했습니다. 이를 해결하기 위해 원본 wav 파일 목록을 glob 으로 수집하고 파일명 - 풀경로 매핑 딕셔너리를 생성하는 해결 방안을 제시했습니다.

Key Points

  • pysommers 데이터셋의 전사 전/후 파일 경로 구조 정의 (/raid/data/youtube-dataset/pysommers_dataset_ja)
  • rt-norm 라이브러리의 jpn_norm_blacklist 기능 브랜치 설치
  • 전사 대상 파일 ID 목록 기록 (HVDWV4JebFw 등)
  • 파일명만 존재하고 실제 파일 경로가 누락된 문제 발생
  • 해결책: 원본 wav 파일 glob 수집 및 파일명 - 풀경로 매핑 딕셔너리 생성 로직 수립