Recurrent Neural Networks for Voice Activity Detection

Source

  • Evernote/Inbox/Recurrent Neural Networks for Voice Activity Detection.md

Summary

이 문서는 음성 활동 탐지(VAD)를 위한 새로운 재귀 신경망(RNN) 모델을 소개합니다. 다층 RNN 모델은 가우시안 혼합 모델(GMM)과 상태 머신(SM)으로 구성된 기존 베이스라인 시스템보다 성능이 우수합니다. RNN 모델은 모든 파라미터를 함께 최적화하여 시간적 연속성과 음향 특징 간의 균형을 적절히 조절합니다. 기존 시스템 대비 파라미터가 1/10 수준으로 줄어든 동시에, 오경보(false alarms)를 26% 감소시키고, 전체 음성 인식 계산 시간을 17% 단축하며, 단어 오류율(word error rate)을 1% 상대적으로 낮췄습니다.

Key Points

  • 음성 활동 탐지(VAD)를 위한 다층 RNN 모델 제안
  • 기존 GMM+SM 베이스라인 대비 파라미터 수 1/10 감소
  • 오경보 26% 감소, 계산 시간 17% 단축, 단어 오류율 1% 상대적 감소
  • 모든 파라미터의 통합 최적화를 통한 시간적 연속성 및 음향 특징의 균형 조절