Triton-Kaldi 오프라인 디코더 구현 및 TTS(Tacotron2/HifiGAN) 학습 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 258. 2022-03-15.md

Summary

본 노트는 2022 년 3 월 15 일의 작업 기록으로, 두 가지 주요 기술적 과제를 다룬다. 첫째, Triton-Kaldi 에서 오프라인 음성 인식 (ASR) 을 처리하기 위해 FlushBatch 로직과 DecodeWithCallback 의 데이터 흐름을 분석하고, 청크 단위 입력을 배치로 처리하는 오프라인 모드 구현 방안을 모색한다. 둘째, TTS(Text-to-Speech) 분야에서는 Coqui-ai 프레임워크 설치를 완료하고, Tacotron2 와 HifiGAN 의 아키텍처 (Encoder-Attention-Decoder 구조, Mel-spectrogram 생성 및 Vocoder 과정) 를 논문과 구현체를 통해 학습하며, Patrick 의 학습 진행 상황 (Tacotron2 완료, HifiGAN 진행 중) 과 한국어 TTS 프로젝트 맥락을 기록한다.

Key Points

  • Triton-Kaldi 오프라인 처리: 온라인 모드 (청크 단위 스트리밍) 와 달리 오프라인 모드는 전체 Wave Data 확보 후 처리해야 함. PrepareRequest 에서 Task 를 쌓아두고, FlushComputeTask 를 통해 BuildBatchDecodeBatch 를 실행하는 로직 재설계 필요.
  • TTS 아키텍처 이해: Tacotron2 는 Text-to-Mel-spectrogram 변환 (Seq2Seq, Location-Sensitive Attention), HifiGAN/WaveNet 은 Mel-to-Waveform 변환 (Vocoder) 을 담당. 학습 시 Teacher-forcing 기법 사용.
  • 프로젝트 현황: Patrick 이 Tacotron2 학습을 완료하고 HifiGAN 을 진행 중. 한국어 TTS 를 위한 데이터 생성 (Project K) 이 논의됨.
  • 행정 사항: 삼성 퇴직 절차 진행 중 (사원증 반납, 방문 신청 등).