심층 신경망을 이용한 통계적 파라미터 음성 합성

Source

  • Evernote/Papers/Statistical Parametric Speech Synthesis Using Deep Neural Networks.md

Summary

본 논문은 기존 통계적 파라미터 음성 합성에서 사용되던 결정 트리 기반 HMM의 한계(복잡한 문맥 의존성 모델링 비효율성)를 해결하기 위해 심층 신경망(DNN)을 적용한 대안적 방안을 제시합니다. 입력 텍스트와 음향 실현(acoustic realization) 간의 관계를 DNN으로 모델링하여, 유사한 파라미터 수를 가진 기존 HMM 기반 시스템보다 우수한 성능을 달성했음을 실험을 통해 입증합니다.

Key Points

  • 기존 방식: 결정 트리 클러스터링된 문맥 의존 HMM 사용, 복잡한 문맥 의존성 모델링에 비효율적
  • 제안 방식: 입력 텍스트와 음향 파라미터 간 관계를 심층 신경망(DNN)으로 직접 모델링
  • 결과: 유사한 파라미터 수 대비 DNN 기반 시스템이 기존 HMM 기반 시스템보다 성능 우위
  • 출처: Google Research 논문 (Zen, Senior, Schuster 등)