일본어 ASR 모델 실험 및 데이터 파이프라인 개선 (Day 811)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 811. 2023-09-19.md

Summary

2023-09-19 기록으로, 일본어 ASR 모델의 성능 개선(CER 감소)을 위한 vocab 추가 실험과 mww 테스트 데이터셋 구성(Katakana/Hiragana/Kanji 분리)을 다룹니다. 또한 Intel VAD 기반 세그먼테이션 파이프라인 구축과 LM 과적합 방지를 위한 노말라이저 수정 실험을 계획합니다.

Key Points

  • 일본어 모델: vocab 추가 시 CER 상승 현상 관찰, best UER 기대
  • 데이터 파이프라인: pysommers 수정 및 export_dataset_memmap() 함수 활용
  • mww 테스트셋 구성: 이름(Katakana), 일반(Hiragana), 주소(Kanji), 모델(AlphabetNumber)로 분류
  • 인프라 및 세그먼테이션: Intel VAD 활용, 앞뒤 패딩 처리(collar/0.3초), 사용 가능 머신(winston, tracer, reaper) 확인
  • 실험 계획: mww 데이터 세그먼테이션(memmap 설정) 및 LM 과적합 방지를 위한 확률적 히라가나 변환 노말라이저 도입