대규모 분산 음향 모델링 및 백오프 N-그램

Source

Evernote/Inbox/Large Scale Distributed Acoustic Modeling With Back-off N-grams.md

Summary

구글 음성 검색 로그에서 필터링된 87,000 시간의 대용량 데이터를 활용하여, 기존 자동 음성 인식(ASR)보다 약 100배 큰 규모의 음향 모델을 구축한 연구입니다. N-그램 언어 모델링 기법을 차용한 백오프(back-off) 방식을 적용해 20~40백만 개 가우시안 모델로 최대 가능도(ML) 학습을 수행했습니다. 결과적으로 1차 통과 모델과 결합 시 단어 오류율(WER)이 ML 기준 11%, MMIE 기준 6% 상대 감소 효과를 보였으나, 5음소(quinphone) 이상의 문맥 확장에는 추가 이점이 없었습니다.

Key Points

데이터 규모: 구글 음성 검색 로그 기반 87,000 시간의 음성 및 전사 데이터 사용
모델 크기: 기존 대비 약 100배 확대된 20~40백만 개 가우시안 파라미터
방법론: N-그램 언어 모델링에서 영감을 받은 백오프(back-off) 음향 모델링 기법 적용
성능 개선: 1차 통과 모델과 결합 시 WER 상대 감소 (ML: 11%, MMIE: 6%)
한계점: 5음소(quinphone) 이상의 문맥 크기 증가는 성능 향상에 기여하지 않음

AncomWiki

탐색기

대규모 분산 음향 모델링 및 백오프 N-그램

대규모 분산 음향 모델링 및 백오프 N-그램

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

대규모 분산 음향 모델링 및 백오프 N-그램

대규모 분산 음향 모델링 및 백오프 N-그램

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크