NLP4STT: Neural ITN Triton화 및 배치 처리

Source

  • Field Notes/ReturnZero/Daily Notes/Day 567. 2023-01-18.md

Summary

STT 파이프라인에서 Neural ITN(Inverse Text Normalization) 모듈을 Triton으로 최적화하는 작업과 관련 아키텍처 고민을 기록함. Worker와 전처리 단계에서 어터런스(utterance)를 모아서 128자 길이에 맞춰 배치(batch)로 전송한 후, ITN 결과를 다시 개별 어터런스로 분류하는 로직을 설계 중임.

Key Points

  • Neural ITN 모듈의 Triton 기반 최적화 진행
  • Worker 및 전처리 단계에서 어터런스 패킹(Packing) 전략: 128자 기준 배치 구성
  • ITN 추론 후 결과를 원본 어터런스 단위로 언팩(Unpacking)하는 로직 필요
  • 모델 로드 및 추론 테스트 코드 예시 포함