ITN 논의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 687. 2023-05-18.md

Summary

ITN(Inverse Text Normalization) 처리의 성능 최적화를 위해 토큰 길이 제한 조정, 배치 처리(batching) 전략 변경, 그리고 텍스트 프로세서 아키텍처에서 Neural ITN 분리 등을 논의한 개발 메모입니다.

Key Points

  • MAX_TOKEN_LENGTH를 80, 64, 32 등으로 줄여 테스트 진행
  • 레코드 단위 요청 대신 Turn 단위 텍스트를 합쳐 배치 처리(batching)로 변경
  • Worker에서 명시적인 batching 구현 또는 토크나이저 이전의 문자열 패딩/길이 고정(126/62) 방안 검토
  • 텍스트 프로세서에서 Neural ITN 모듈 분리 고려
  • ASYNC_TASK 관련 의문점 제기