Recurrent Neural Networks for Voice Activity Detection
Source
Evernote/Inbox/Recurrent Neural Networks for Voice Activity Detection.md
Summary
이 문서는 음성 활동 탐지(VAD)를 위한 새로운 재귀 신경망(RNN) 모델을 소개합니다. 다층 RNN 모델은 가우시안 혼합 모델(GMM)과 상태 머신(SM)으로 구성된 기존 베이스라인 시스템보다 성능이 우수합니다. RNN 모델은 모든 파라미터를 함께 최적화하여 시간적 연속성과 음향 특징 간의 균형을 적절히 조절합니다. 기존 시스템 대비 파라미터가 1/10 수준으로 줄어든 동시에, 오경보(false alarms)를 26% 감소시키고, 전체 음성 인식 계산 시간을 17% 단축하며, 단어 오류율(word error rate)을 1% 상대적으로 낮췄습니다.
Key Points
- 음성 활동 탐지(VAD)를 위한 다층 RNN 모델 제안
- 기존 GMM+SM 베이스라인 대비 파라미터 수 1/10 감소
- 오경보 26% 감소, 계산 시간 17% 단축, 단어 오류율 1% 상대적 감소
- 모든 파라미터의 통합 최적화를 통한 시간적 연속성 및 음향 특징의 균형 조절
Related
-
Efficient Estimation of Word Representations in Vector Space
-
Language Model Verbalization for Automatic Speech Recognition
-
Speaker Adaptation of Context Dependent Deep Neural Networks
-
Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
Anomaly Extraction in Backbone Networks Using Association Rules
-
Moment-Based Spectral Analysis of Large-Scale Networks Using Local Structural Information
-
Speech and Natural Language: Where Are We Now And Where Are We Headed
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Target Language Adaptation of Discriminative Transfer Parsers
-
Improved Domain Adaptation for Statistical Machine Translation
-
Efficient Multiview Maintenance under Insertion in Huge Social Networks
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Information-Theoretic Outlier Detection for Large-Scale Categorical Data
-
동적 스타 네트워크에서 다중 유형 객체의 공진화 (Co-Evolution of Multi-Typed Objects in Dynamic Star Networks)
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Behavioural reconfigurable and adaptive data reduction in body sensor networks
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling