Day 210: Kaldi 디토크나이징 실패 및 온라인 디코더/운영 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 210. 2022-01-26.md

Summary

2022-01-26 일지. Kaldi 디토크나이징 실험 중 입력값 오류로 실패함. JK와 논의한 온라인 디코더의 샘플레이트 불일치 문제(클라이언트 측 다운샘플링 권장), Docker 메모리/스왑 설정 검토, WER 계산 스크립트의 비효율성 개선 필요성, David와의 Triton 리스코어링 논의, 마이그레이션 데이터 JSON 키값 공백 에러에 대한 As-is 파악 우선 원칙을 기록함.

Key Points

  • Kaldi 디토크나이징 실험: 입력값 오류로 실패.
  • 온라인 디코더 아키텍처: 백엔드에서 chunk 만 받을 경우 샘플레이트 감지 불가. 클라이언트에서 다운샘플링 후 전송하는 것이 바람직하며, 백엔드는 방어코드 수준으로 처리.
  • Docker 설정: —memory-swap -1 시 무제한 스왑 사용 가능. —memory 와 —memory-swap 값을 동일하게 설정하면 스왑 사용 방지.
  • WER 계산 효율성: compute_wer.sh 실행 시 도커 컨테이너 재시작 등 비효율적 과정 존재. 도커 내부에서 스크립트 재실행 방식으로 개선 필요.
  • Triton/Kaldi 통합: David 와 논의. Triton 기반 유지하되 리스코어링 로직 추가 및 워커 수정 방안 검토.
  • 데이터 마이그레이션 이슈: JSON 키값의 불필요한 공백문자로 인한 에러. 수정 전 영향도 파악(As-is)이 선행되어야 함.