2023-03-23 작업 기록: 일본어 ITN 및 Qoo10 ASR 정렬

Source

  • Field Notes/ReturnZero/Daily Notes/Day 631. 2023-03-23.md

Summary

이 노트는 2023 년 3 월 23 일의 작업 일지로, 주로 일본어 ITN(역 텍스트 정규화) 개선과 Qoo10 데이터셋을 위한 ASR 정렬 작업에 대한 기록이다. 일본어 ITN 부분에서는 MeCab 분석 결과의 품사 태그 (0, 6, 7, 22, 26, 44 등) 에 따른 가타카나 및 특수 문자 처리 규칙을 검토하고, 하이픈 및 장음기호 등 예외 케이스를 정리했다. Qoo10 작업에서는 align.py 스크립트를 사용하여 오디오와 텍스트를 정렬하는 과정을 기록했으며, ESPnet 모델 다운로드 및 실행 중 발생한 지연과 YouTube-dl 메타데이터 기반 처리의 한계로 인한 어려움을 언급했다. 또한 통합 ITN(dadumi) 모듈의 후순위 점검 사항도 간략히 기록했다.

Key Points

  • 일본어 ITN: MeCab 품사 태그별 가타카나 처리 규칙 검토 및 하이픈/장음기호 예외 케이스 정리
  • Qoo10 ASR 정렬: align.py 스크립트 실행 및 ESPnet 모델 다운로드 과정 기록
  • 기술적 어려움: YouTube-dl 메타데이터 기반 처리의 불안정성 및 모델 다운로드 지연 문제
  • 통합 ITN(dadumi): 모듈 통과 확인 및 프로세싱 순서 인터페이스 점검 (후순위)