Day 264. 2022-03-21

Source

  • Field Notes/ReturnZero/Daily Notes/Day 264. 2022-03-21.md

Summary

병원 방문 후 집중력 저하로 업무 효율이 낮았던 날. TTS(HiFiGAN, Tacotron2)와 ASR(GoP 레시피) 관련 기술 검토를 병행하며, 한국어 TTS 학습의 어려움과 GoP(Goodness of Pronunciation) 프로세스의 단계별 분석을 기록함. 특히 GoP 레시피의 데이터 준비부터 학습까지의 14단계 파이프라인을 상세히 정리하고, Vito-Kaldi와의 차이점 및 PoC 목표 설정을 논의함.

Key Points

  • TTS 연구: HiFiGAN의 MPD 도입 효과 확인 및 Coqui-ai 학습 문제점 인지. Tacotron2의 한국어 학습 한계로 NVIDIA 코드 기반 학습 계획 수립.
  • GoP(Goodness of Pronunciation) 착수: ProjectK의 GoP 레시피 검토. 기존 ASR 모델(LibreSpeech DNN-HMM)을 활용해 발음 정확도 평가.
  • GoP 파이프라인 분석: run.sh 기반 14단계 프로세스 정리. 데이터 준비, MFCC/IVector 추출, TDNN 확률 계산, Lexicon/Phone 정보 생성, Force-Align, GoP 점수 산출, 오발음 분류기 학습 등.
  • 기술적 의문점: GoP 모델과 ASR 모델의 동시 사용 방식, 디코딩 결과 제공 이슈, Vito-Kaldi 레시피와의 차이점(제거된 부분 포함).
  • 일정 및 목표: 4월 초중반 GoP PoC 완료 목표. 레시피 파악 및 Vito-Kaldi 서버 구조 검토가 주요 마일스톤.