대규모 분산 음향 모델링 및 백오프 N-그램
Source
Evernote/Inbox/Large Scale Distributed Acoustic Modeling With Back-off N-grams.md
Summary
구글 음성 검색 로그에서 필터링된 87,000 시간의 대용량 데이터를 활용하여, 기존 자동 음성 인식(ASR)보다 약 100배 큰 규모의 음향 모델을 구축한 연구입니다. N-그램 언어 모델링 기법을 차용한 백오프(back-off) 방식을 적용해 20~40백만 개 가우시안 모델로 최대 가능도(ML) 학습을 수행했습니다. 결과적으로 1차 통과 모델과 결합 시 단어 오류율(WER)이 ML 기준 11%, MMIE 기준 6% 상대 감소 효과를 보였으나, 5음소(quinphone) 이상의 문맥 확장에는 추가 이점이 없었습니다.
Key Points
- 데이터 규모: 구글 음성 검색 로그 기반 87,000 시간의 음성 및 전사 데이터 사용
- 모델 크기: 기존 대비 약 100배 확대된 20~40백만 개 가우시안 파라미터
- 방법론: N-그램 언어 모델링에서 영감을 받은 백오프(back-off) 음향 모델링 기법 적용
- 성능 개선: 1차 통과 모델과 결합 시 WER 상대 감소 (ML: 11%, MMIE: 6%)
- 한계점: 5음소(quinphone) 이상의 문맥 크기 증가는 성능 향상에 기여하지 않음
Related
-
Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Efficient Estimation of Word Representations in Vector Space
-
Language Model Verbalization for Automatic Speech Recognition
-
Speech and Natural Language: Where Are We Now And Where Are We Headed
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Improved Domain Adaptation for Statistical Machine Translation
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Speaker Adaptation of Context Dependent Deep Neural Networks
-
Target Language Adaptation of Discriminative Transfer Parsers