일본어 데이터셋 구축 및 전사 파이프라인 디버깅

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1008. 2024-04-04.md

Summary

일본어 음성 데이터셋 구축 과정에서 전사(transcription) 보완, 구두점 처리(punctuator) 로직 수정, 및 벤치마킹 스크립트 실행 중 발생한 AssertionError 디버깅을 기록한 일지입니다. 특히 31시간 소요된 실행 후 발생한 구간 길이 오류와 언어별 후처리(postprocessor) 적용 필요성을 확인했습니다.

Key Points

  • 일본어 데이터셋 전사율: 23,753/36,495 (미완성 상태)
  • 실행 오류: 31시간 소요 후 AssertionError: len(current_interval) > 0 발생 (구간 데이터 이상)
  • 코드 수정 사항: punctuationCoreProcessor가 언어(language) 인자를 받아 언어별 후처리 로직을 다르게 동작하도록 수정 필요
  • 작업 우선순위: ann_1 생성, 전사 보완, 오디오 전용 실험, rtboost 데이터셋 구축
  • 참고 자료: 일본어 구두점 처리 관련 Qiita/Zenn 블로그 및 Wakati 라이브러리 링크 수집