ReturnZero Day 594: 일본어 데이터 파이프라인 및 ITN 아키텍처 검토

Source

  • Field Notes/ReturnZero/Daily Notes/Day 594. 2023-02-14.md

Summary

2023 년 2 월 14 일 일기. 일본어 음성 데이터셋 (ETRI, CSJ 등) 의 전처리 파이프라인 구축과 ITN(Inverse Text Normalization) 모듈의 아키텍처 분리 (detokenizer 로직 분리, 자연어 후처리 명칭 변경 고려) 에 대한 기술적 고민과 기여 방향 탐색을 기록함.

Key Points

  • 일본어 데이터셋 (ETRI1/2, CSJ, Common Voice 등) 의 raw 데이터 위치 및 전처리 도구 (rt-norm/jp, pysommers) 확인
  • ITN 모듈의 아키텍처 개선: detokenizer 로직 분리 및 ‘자연어 후처리’라는 명칭으로의 변경 고려
  • Whisper 형식 고려 및 노말라이제이션 후 데이터 검수 필요성 인지
  • 일본어 프로젝트 내에서의 구체적인 기여 영역 탐색