심층 신경망을 이용한 통계적 파라미터 음성 합성
Source
Evernote/Papers/Statistical Parametric Speech Synthesis Using Deep Neural Networks.md
Summary
본 논문은 기존 통계적 파라미터 음성 합성에서 사용되던 결정 트리 기반 HMM의 한계(복잡한 문맥 의존성 모델링 비효율성)를 해결하기 위해 심층 신경망(DNN)을 적용한 대안적 방안을 제시합니다. 입력 텍스트와 음향 실현(acoustic realization) 간의 관계를 DNN으로 모델링하여, 유사한 파라미터 수를 가진 기존 HMM 기반 시스템보다 우수한 성능을 달성했음을 실험을 통해 입증합니다.
Key Points
- 기존 방식: 결정 트리 클러스터링된 문맥 의존 HMM 사용, 복잡한 문맥 의존성 모델링에 비효율적
- 제안 방식: 입력 텍스트와 음향 파라미터 간 관계를 심층 신경망(DNN)으로 직접 모델링
- 결과: 유사한 파라미터 수 대비 DNN 기반 시스템이 기존 HMM 기반 시스템보다 성능 우위
- 출처: Google Research 논문 (Zen, Senior, Schuster 등)
Related
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Improved Domain Adaptation for Statistical Machine Translation
-
Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
-
Efficient Estimation of Word Representations in Vector Space
-
Target Language Adaptation of Discriminative Transfer Parsers
-
Enlisting the Ghost: Modeling Empty Categories for Machine Translation
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Speech and Natural Language: Where Are We Now And Where Are We Headed
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Language Model Verbalization for Automatic Speech Recognition
-
Speaker Adaptation of Context Dependent Deep Neural Networks
-
Scalable Decipherment for Machine Translation via Hash Sampling
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Supporting Flexible, Efficient, and User-Interpretable Retrieval of Similar Time Series
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Structured Streaming Skeleton (SSS): 온라인 인간 제스처 인식용 새로운 특징 추출 방법