Deview 2020: AI 기술 세션 요약 (폰트, 로봇, TTS)

Source

  • Google Keep/Deview 2020.md

Summary

본 문서는 Deview 2020 세션에서 소개된 네이버 클로바의 AI 기술 동향을 기록한 메모입니다. 주요 내용은 세 가지로 구성됩니다. 첫째, Few-shot 학습을 통한 손글씨 폰트 생성 기술(DMFont, LFFont)로, 외우기 문제를 해결하기 위해 컨텐츠 인코더를 제거하고 Matrix Factorization 기법을 적용했습니다. 둘째, Modular RL을 활용한 로봇 훈련입니다. 셋째, 개인화 TTS(텍스트 음성 변환) 파이프라인으로, 기존 Concatenation 방식에서 E2E 딥러닝으로 전환하며 Acoustic Model과 Vocoder를 분리 훈련하는 방식을 설명합니다. 특히 Tacotron2의 Attention 문제, 다양한 Vocoder(Autoregressive, GAN, Flow 등)의 트레이드오프, 그리고 소량 데이터(200~400 문장) 기반의 커스텀 보이스 생성 파이프라인 및 품질 균일화 과정이 상세히 기술되어 있습니다.

Key Points

  • Few-shot 손글씨 폰트 생성: 컨텐츠 인코더 제거 및 Matrix Factorization 적용을 통한 외우기(Overfitting) 문제 해결
  • 로봇 훈련: Modular RL 접근법 소개
  • 개인화 TTS 아키텍처: 텍스트-어쿠스틱 피처(Acoustic Model) 및 어쿠스틱 피처-음성(Vocoder)의 분리 훈련 방식
  • TTS 모델링 이슈: Autoregressive 방식의 Attention 실패 문제 및 Non-autoregressive 방식의 병렬 처리 장단점
  • Vocoder 비교: Wavenet(고품질/느림), 신호처리 하이브리드(빠름), GAN(불안정), Flow-based(병렬 우세)의 트레이드오프
  • 커스텀 보이스 파이프라인: 소량 데이터(200~400 문장) 기반 학습, Overfitting 방지 및 품질 균일화(EQ, Loss/Attention 체크) 프로세스
  • 시스템 구성: gRPC 기반 프론트엔드/백엔드 분리 아키텍처