Triton-Kaldi Offline Decoder 리팩토링 및 TTS 학습 진행 상황 (Day 259)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 259. 2022-03-16.md

Summary

이 노트는 2022년 3월 16일(재택근무 261일째)의 작업 기록으로, 주요 내용은 Triton-Kaldi의 Offline Decoder 구조 분석과 리팩토링 아이디어 도출, 그리고 TTS(Tacotron2, HifiGAN) 학습 진행 상황이다. 특히 Offline Decoder에서 Batch 기반 처리를 Task Queue 기반 처리로 전환하기 위한 로직(PrepareRequest, ComputeTask, 시퀀스 관리)에 대한 상세한 코드 리뷰와 설계 고민이 기록되어 있다. 또한 삼성 퇴사 절차 예정, 단어 정리 플랫폼 탐색 등 부수적인 업무와 학습 목표도 포함된다.

Key Points

  • Triton-Kaldi Offline Decoder 리팩토링: 기존 Batch 기반(ModelInstanceExecute, FlushBatch)에서 Task Queue 기반(CreateTask, ComputeTask)으로 전환하는 로직 설계 중
  • Offline Decoder 구현 난제: 청크(Chunk)와 어터런스(Utterance) 단위 처리의 혼동, 시퀀스별 큐 관리(sequence_chunks), 파셜 리스폰스(Partial Response) 콜백 처리 방식에 대한 고민
  • TTS 학습 진행: Tacotron2의 Teacher Forcing 및 아키텍처 이해, HifiGAN 논문 읽기 및 학습 진행 중, Coqui-ai 프레임워크 학습
  • 기타 업무: 삼성 퇴사 절차(다음 주 예정), 단어/사전 공유 플랫폼(Notion, Obsidian 등) Best Practice 탐색
  • 향후 계획: SegmentDecodeWithCallback 리뷰, HifiGAN 학습 완료 및 블로그 글 작성, Tacotron2 세미나 준비