TTS 연구 파이프라인 정의 및 Project-K 협업 회고

Source

  • Field Notes/ReturnZero/Daily Notes/Day 324. 2022-05-20.md

Summary

본 노트는 TTS(Text-to-Speech) 연구의 초기 단계인 파이프라인 정의, 데이터셋(카이스트 오디오북) 전처리 과정의 기술적 난관(인코딩 문제), 그리고 Non-Autoregressive 프레임워크 선정 기준을 기록한다. 또한 Project-K 프로젝트에서의 협업 경험과 팀 역동성에 대한 회고 및 인사이트를 포함한다.

Key Points

  • TTS 연구 파이프라인을 조사, 연구/개발, 실험 단계로 정의하고 TTS 실험을 우선 목표로 설정
  • 카이스트 오디오북 데이터셋 다운로드 및 전처리 과정에서 Mac/Linux 간 인코딩 불일치로 인한 파일명 깨짐 문제 발생 및 해결 시도 (convmv 등)
  • TTS 프레임워크 선정 시 Non-Autoregressive 구조의 장점(GPU 병렬 연산, 무한 합성 문제 없음, 속도/피치 조절 용이)과 단점(성능 저하 가능성, Duration 정보 추출 필요) 분석
  • 모델 평가 시 Loss 값만으로는 품질 보장이 어렵고, 하이퍼파라미터 튜닝 및 전처리(부호 처리 등)의 중요성 인지
  • Project-K 회고를 통해 리서치팀과 개발팀(그린 팀) 간 소통의 중요성, 피드백 부재의 문제점, 그리고 ‘보이지 않는 손’에 의한 조직 최적화 현상에 대한 성찰