Triton-Kaldi 통합 및 Kaldi 레시피 구조 분석 (Day 190)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 190. 2022-01-06.md

Summary

이 노트는 Triton-Kaldi 통합 작업을 시작하며, Kaldi 레시피(recipe)의 디렉토리 구조와 데이터 흐름을 분석하는 과정을 기록한다. 작성자는 LibriSpeech 예제와 내부 Kaldi 설정을 비교하며, MFCC, i-vector, GMM 모델 등 ASR 파이프라인의 핵심 구성 요소와 파일 경로 규칙을 파악하려 했다. 초기 단계에서 개념 정리가 부족하고 혼란스러웠으나, Kaldi의 egs/s5 구조와 데이터 준비 형식(wav.scp, text 등)에 대한 기초 지식을 습득했다.

Key Points

  • Triton-Kaldi 통합을 위해 데이터셋 구조와 클라이언트 데이터 읽기 방식을 분석해야 함
  • Kaldi 레시피(recipe)는 데이터셋 기반 모델 학습을 위한 스크립트 및 설정 파일 집합임
  • Kaldi 디렉토리 구조: egs/<project>/s5 (스크립트), data (학습 데이터), exp (학습된 모델), conf (설정)
  • 핵심 파일/설정: MFCC, i-vector extractor, GMM 모델, wav.scp, text, utt2spk
  • LibriSpeech 예제와 내부 Kaldi 환경 비교를 통해 설정 파일(online_cmvn.conf 등)과 모델 경로 규칙 학습