ReturnZero Day 1041: 일본어 STT 데이터 전처리 및 학습 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1041. 2024-05-07.md

Summary

본 노트는 ReturnZero 프로젝트의 일본어 음성 인식(STT) 데이터 파이프라인 구축 과정과 학습 전략을 기록한 일기 형식의 메모이다. 주요 내용은 일본어 데이터셋(pysommers_ja)의 전사 오류 수정, 노말라이즈 및 병합 작업, 그리고 영어 혼입 데이터 필터링 문제 해결 시도이다. 또한 Dan과의 논의 결과를 바탕으로 학습 실행 계획(Valid 셋 구성 기준, CER 50% 이하 데이터 선별)과 STT 모델의 추가 기능(ITN replacer, PII 마스킹) 구현 세부사항을 다룬다.

Key Points

  • 일본어 데이터셋(pysommers_ja) 전처리: 전사 오류 재전사 완료, 노말라이즈 및 병합 작업 진행, IDC 복사 및 검증 중
  • 언어 필터링 이슈: 일본어 데이터셋 내 영어 혼입 데이터 존재, 원본 정보 기반 필터링 필요성 대두, 현재는 일본어로 전사된 상태 유지
  • 학습 전략 (Dan 논의): 즉시 학습 시작, Valid 셋은 영상 단위(전체 5% 또는 400시간)로 구성, CER 50% 이하 데이터로 학습셋 구성
  • Valid 셋 구성 로직: utt_id 기반 영상 ID 추출, 사전(Dictionary) 매칭을 통해 Train/Valid 분할
  • STT 기능 확장: ITN(Inverse Text Normalization)에 vocab.txt 기반 WFST replacer 추가, PII(개인식별정보) 마스킹 엔진 통합 계획