모바일 음성 검색을 위한 Google 쿼리 스트림의 언어 모델링 경험적 탐색
Source
Evernote/Papers/Empirical Exploration of Language Modeling for the google.com Query Stream as Applied to Mobile Voice Search.md
Summary
이 논문은 모바일 음성 검색의 성능 향상을 위해 Google 검색 쿼리 스트림을 기반으로 한 통계적 언어 모델링을 경험적으로 분석합니다. 주요 발견사항은 다음과 같습니다: 1) 텍스트 정규화 후 100만 단어 어휘로 1% 미만의 OOV(out-of-vocabulary) 비율을 달성할 수 있으며, 높은 차수의 n-gram 히트율도 우수합니다. 2) 사용자의 95% 이상에서 1% 미만의 OOV 비율을 보장하려면 약 1,000만 단어의 대규모 어휘가 필요합니다. 3) 대규모 분산 언어 모델은 기존 모델 대비 단어 오류율(WER)을 최대 10% 상대적으로 감소시킵니다. 4) 쿼리 스트림은 비정상성(non-stationary)을 띠어, 일정 시점 이후 과거 데이터 추가는 성능 향상에 한계가 있거나 오히려 성능을 저하시킬 수 있습니다. 5) 지역(미국, 영국, 호주)에 따라 영어 쿼리 데이터의 특성이 유의미하게 다릅니다. 6) 음성 검색 로그의 음성 데이터를 활용한 대규모 판별적 N-gram 언어 모델 구축을 통해 인식 성능의 소폭이지만 유의미한 향상을 달성했습니다.
Key Points
- 모바일 음성 검색용 언어 모델링을 위해 Google 쿼리 스트림 분석 수행
- 텍스트 정규화 시 100만 단어 어휘로 낮은 OOV 비율(1% 미만) 및 높은 n-gram 히트율 달성 가능
- 대부분 사용자(95%)의 낮은 OOV 보장을 위해 약 1,000만 단어 어휘 필요
- 대규모 분산 언어 모델 적용 시 단어 오류율(WER) 최대 10% 상대적 감소
- 쿼리 스트림의 비정상성으로 인해 과도한 과거 데이터 추가는 성능 저하 유발 가능
- 지역별(미국, 영국, 호주) 영어 쿼리 데이터의 특성 차이 유의미
- 음성 검색 로그 기반 대규모 판별적 N-gram 모델로 인식 성능 향상
Related
-
Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
-
Efficient Estimation of Word Representations in Vector Space
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
Speech and Natural Language: Where Are We Now And Where Are We Headed
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Language Model Verbalization for Automatic Speech Recognition
-
Improved Domain Adaptation for Statistical Machine Translation
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features