Day 209: Sommers 디토크나이징 적용 및 오프라인 디코더 입력/배치 구조 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 209. 2022-01-25.md

Summary

이 노트는 Sommers ASR 시스템의 디토크나이징 쉘스크립트 적용과 rt-tokenizer 설치를 기록한다. 주요 문제의식은 triton-kaldi의 온라인 GRPC 기반 청크 처리 방식과 기존 Kaldi 오프라인 디코더의 배치 처리 및 iVector 추출 구조 간의 차이로 인한 입력 양식 및 처리 단위 불명확성이다. 저자는 코드 구조의 근본적 차이로 인해 오프라인 디코더 구현에 난항을 겪고 있으며, 당장 텍스트 디토크나이징 실험으로 우선순위를 낮추려 했으나 테스트 파일 오류 등으로 진행이 막혀 있다.

Key Points

  • Sommers 디토크나이징 쉘스크립트 적용 및 Docker 내 rt-tokenizer 설치 완료
  • triton-kaldi(온라인 GRPC, 청크 단위)와 기본 Kaldi(오프라인, 파일/큐 단위)의 처리 구조 차이로 인한 입력 단위 및 배치 처리 방식의 불명확성
  • 오프라인 디코더 구현 시 iVector 적응 및 배치 플러시(flushBatch) 로직의 코드 구조적 차이로 인한 난점
  • 텍스트 디토크나이징 실험 시도 중 test_filt.txt 파일 관련 오류 발생으로 진행 중단