DurIAN_4S: 말하기 데이터로부터 노래 합성 학습

Source

  • Evernote/Inbox/LEARNING SINGING FROM SPEECH “DurIAN_4S”.md

Summary

텐센트 AI 연구소는 일반 말하기 데이터만으로 목표 화자의 고품질 노래 목소리를 합성하는 알고리즘을 제안했습니다. 이 방법은 말하기와 노래 합성을 통합된 프레임워크로 결합하여, 두 작업 간에 공유되는 보편적인 화자 임베딩(speaker embeddings)을 학습합니다. 이를 통해 말하기 데이터에서 학습된 화자 특성이 노래 합성으로 이전(transfer)되어, 화자의 일반 음성만으로 해당 화자의 목소리 특성을 가진 노래를 생성하거나 변환할 수 있습니다.

Key Points

  • 일반 말하기 샘플만으로 목표 화자의 노래 목소리 합성 가능
  • 말하기 및 노래 합성을 통합한 단일 프레임워크 사용
  • 두 작업 간 공유되는 보편적 화자 임베딩 학습을 통한 특성 이전
  • 화자의 일반 음성만으로 고품질 노래 음성 변환(Singing Voice Conversion) 수행