GoP(Goodness of Pronunciation) 평가 파이프라인의 C++ 바이너리화 및 Feature Pipeline 문제

Source

  • Field Notes/ReturnZero/GoP 정리.md

Summary

이 노트는 Kaldi의 GoP 평가 레시피(gopspeech65)를 단일 음성 입력에 효율적으로 적용하기 위해 C++ 바이너리화(vito-kaldi 기반)를 고려하는 배경을 다룹니다. 핵심 문제의식은 기존 vito-kaldi의 feature pipeline(MFCC/I-vector)이 GoP 평가의 특성상 그대로 활용되지 못하며, GoP 전용 feature pipeline이 아직 구현되지 않았다는 점입니다.

Key Points

  • Kaldi의 gopspeech65 레시피는 파일 입출력이 빈번하여 단일 음성 처리 시 비효율적임.
  • vito-kaldi 개발 경험을 바탕으로 레시피 전체를 C++ 바이너리화하여 성능 최적화 시도.
  • 기존 음성인식용 feature pipeline은 GoP 평가에 직접 적용 불가하며, 전용 pipeline 구현이 필요함.
  • gopspeech65 레시피는 총 14 단계로 구성됨.