일본어 데이터 정제 및 전처리 파이프라인 (Day 1562)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1562. 2025-10-09.md

Summary

일본어 ASR 데이터의 전처리 파이프라인 구축을 위한 작업 기록입니다. 주요 과제로는 입력 텍스트, 코드 전사, 디폴트 전사 간의 비교 분석, 유효하지 않은 데이터(invalid data) 필터링, 그리고 슬래시와 괄호와 같은 특수 문자를 포함한 정규화 로직 수정이 있습니다. 또한, 데이터셋의 메모리 매핑(memmap) 생성과 어휘집(vocab) 구축을 계획하고 있으며, 입력 텍스트의 품질이 낮더라도 가설 전사(hyp1)와의 CER 비교를 통해 데이터를 포함시키는 전략을 검토 중입니다.

Key Points

  • 일본어 데이터셋의 입력 텍스트, 코드 전사, 디폴트 전사 비교 분석 진행
  • 유효하지 않은 데이터(invalid data) 식별 및 필터링 작업
  • 슬래시(/) 및 괄호() 등 특수 문자를 포함하는 정규화 로직 수정
  • 입력 텍스트 품질이 낮더라도 hyp1 CER 비교를 통한 데이터 포함 여부 검토
  • 데이터셋의 memmap 생성 및 vocab 구축 작업 계획