Kaldi Feature Pipeline 및 iVector 추출 탐색 (Day 272)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 272. 2022-03-29.md

Summary

2022-03-28 휴가 중 코로나 의심 증세 발생. 기술적으로는 Kaldi 기반 음성 인식 파이프라인에서 웨이브폼(wav)을 읽어 MFCC 및 iVector를 추출하는 방법을 탐색함. online2-wav-dump-features, feature_pipeline.GetFrame(), subset-feats 등의 도구와 ark,s,cs 스트림 형식의 복잡성을 확인하며, GOP(Gaussian Online Processing) 테스트 구현을 위한 피처 파이프라인 구조를 파악하는 단계임.

Key Points

  • Kaldi 파이프라인에서 wav 파일을 직접 읽거나 spk2utt/wav.scp를 통해 피처를 추출하는 방식 비교
  • online2-wav-dump-featuresfeature.conf를 사용하여 프레임 단위 피처(MFCC 등)를 가져오는 방법 확인
  • iVector 추출을 위한 ivector-extract-online2 및 관련 rspecifier 설정 탐색
  • Kaldi의 ark,s,cs 스트림 파이프라인 및 subset-feats 필터링 로직에 대한 이해도 향상 필요
  • GOP 기능 테스트(gop-func-test) 구현을 위한 피처 파이프라인 기반 마련