rt-tokenizer CLI 구현 및 백엔드 디토크나이징 파이프라인 적용

Source

  • Field Notes/ReturnZero/Daily Notes/Day 211. 2022-01-27.md

Summary

rt-tokenizer 의 CLI 명령어 부재로 인한 디토크나이징 자동화 장애를 해결하기 위해, 클라이언트 측 텍스트 파일 저장 기능 추가 및 rt-tokenizer CLI 주석 해제 설치를 시도함. 또한, 기존 시풋 (sput) 함수의 한계로 인해 라인 단위 처리로 변경하고, vito-kaldi 에서 rescoring 및 detokenizing 모듈을 백엔드에 통합하려 함. 다만 네임스페이스 충돌 및 서드파티 컴파일 문제로 인해 기술적 장벽이 존재함.

Key Points

  • rt-tokenizer 에 CLI 구현이 없어 자동화 파이프라인 구축에 어려움 발생
  • 클라이언트에서 텍스트 출력을 파일 저장으로 변경하여 디토크나이징 테스트 환경 마련
  • rt-tokenizer 설치 시 git 기반 자동화 복잡성으로 인해 수동 주석 해제 방식 검토
  • 기존 시풋 detokenize 함수의 불완전성으로 인해 라인 단위 읽기 방식으로 대체
  • vito-kaldi 기반 rescoring 및 detokenizing 모듈을 백엔드에 적용 시도 중
  • 네임스페이스 충돌 및 서드파티 컴파일 문제로 인한 통합 장애 예상