일본어 ASR 모델 실험 및 데이터 파이프라인 개선 (Day 811)

Source

Field Notes/ReturnZero/Daily Notes/Day 811. 2023-09-19.md

Summary

2023-09-19 기록으로, 일본어 ASR 모델의 성능 개선(CER 감소)을 위한 vocab 추가 실험과 mww 테스트 데이터셋 구성(Katakana/Hiragana/Kanji 분리)을 다룹니다. 또한 Intel VAD 기반 세그먼테이션 파이프라인 구축과 LM 과적합 방지를 위한 노말라이저 수정 실험을 계획합니다.

Key Points

일본어 모델: vocab 추가 시 CER 상승 현상 관찰, best UER 기대
데이터 파이프라인: pysommers 수정 및 export_dataset_memmap() 함수 활용
mww 테스트셋 구성: 이름(Katakana), 일반(Hiragana), 주소(Kanji), 모델(AlphabetNumber)로 분류
인프라 및 세그먼테이션: Intel VAD 활용, 앞뒤 패딩 처리(collar/0.3초), 사용 가능 머신(winston, tracer, reaper) 확인
실험 계획: mww 데이터 세그먼테이션(memmap 설정) 및 LM 과적합 방지를 위한 확률적 히라가나 변환 노말라이저 도입

AncomWiki

탐색기

일본어 ASR 모델 실험 및 데이터 파이프라인 개선 (Day 811)

일본어 ASR 모델 실험 및 데이터 파이프라인 개선 (Day 811)

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

일본어 ASR 모델 실험 및 데이터 파이프라인 개선 (Day 811)

일본어 ASR 모델 실험 및 데이터 파이프라인 개선 (Day 811)

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크