Day 254. 2022-03-11

Source

  • Field Notes/ReturnZero/Daily Notes/Day 254. 2022-03-11.md

Summary

2022년 3월 11일(256일차) 재택근무 일지. Kaldi ASR 파이프라인의 컨텍스트 윈도우(left/right context) 동작 원리와 디코딩 소스 분석이 시급한 과제로 부상했으며, 특히 VAD 트리밍된 음성 입력 시 학습 데이터 분포 이탈 문제와 관련이 있음. 또한 Argo Workflows의 개념(DAG, Worker, Scheduler 등)과 쿠버네티스 기반 효율성 학습, TTS(Patrick 협업), EKS 및 Vite.js 도입 검토 등 다양한 기술 스택 학습과 업무 진행 상황을 기록함. David와의 협업 중 postprocessor 적용 실패 및 virtual 함수 미정의로 인한 상속 오류 등 긴급한 디버깅 이슈 발생.

Key Points

  • Kaldi ASR: VAD로 트리밍된 음성(15초) 입력 시, 디코딩 단계에서 사용하는 left/right context(-13~+9)가 실제 전후 음성을 참조하는지 패딩을 하는지 확인 필요. 학습 데이터와 테스트 데이터의 컨텍스트 불일치 문제 제기.
  • Argo Workflows: DAG 기반 작업 의존성 관리, Worker/Broker/Scheduler 아키텍처 학습. 기존 솔루션(Airflow 등) 대비 컨테이너 동적 배포로 인한 컴퓨팅 자원 효율성 장점 확인.
  • TTS & Frontend: Patrick과 협업 중인 Tacotron2(LJSpeech) 진행 상황 확인. AICOWeb에서 Webpack 대신 Vite.js 도입 검토.
  • 긴급 이슈: David 보고에 따르면 postprocessor 적용 실패로 WER 25.97% 기록. 코드상 virtual 함수 미정으로 상속 클래스 사용 불가 오류 발생, 온라인 파이프라인보다 오프라인 파이프라인 우선 실행 필요.
  • 기타 학습: hiplot, HDF5 구조, EKS 로그 이전(Watchtower) 등 부수적 기술 학습 항목 기록.