DurIAN_4S: 말하기 데이터로부터 노래 합성 학습
Source
Evernote/Inbox/LEARNING SINGING FROM SPEECH “DurIAN_4S”.md
Summary
텐센트 AI 연구소는 일반 말하기 데이터만으로 목표 화자의 고품질 노래 목소리를 합성하는 알고리즘을 제안했습니다. 이 방법은 말하기와 노래 합성을 통합된 프레임워크로 결합하여, 두 작업 간에 공유되는 보편적인 화자 임베딩(speaker embeddings)을 학습합니다. 이를 통해 말하기 데이터에서 학습된 화자 특성이 노래 합성으로 이전(transfer)되어, 화자의 일반 음성만으로 해당 화자의 목소리 특성을 가진 노래를 생성하거나 변환할 수 있습니다.
Key Points
- 일반 말하기 샘플만으로 목표 화자의 노래 목소리 합성 가능
- 말하기 및 노래 합성을 통합한 단일 프레임워크 사용
- 두 작업 간 공유되는 보편적 화자 임베딩 학습을 통한 특성 이전
- 화자의 일반 음성만으로 고품질 노래 음성 변환(Singing Voice Conversion) 수행
Related
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Language Model Verbalization for Automatic Speech Recognition
-
Speech and Natural Language: Where Are We Now And Where Are We Headed
-
Improved Domain Adaptation for Statistical Machine Translation
-
Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
-
Target Language Adaptation of Discriminative Transfer Parsers
-
Speaker Adaptation of Context Dependent Deep Neural Networks
-
Efficient Estimation of Word Representations in Vector Space
-
Scalable Decipherment for Machine Translation via Hash Sampling
-
Token and Type Constraints for Cross-Lingual Part-of-Speech Tagging
-
From mixed-mode to multiple devices. Web surveys, smartphone surveys and apps
-
Enlisting the Ghost: Modeling Empty Categories for Machine Translation
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Behavioural reconfigurable and adaptive data reduction in body sensor networks