ReturnZero Day 686: 큐 병목 및 Worker 성능 저하 대응

Source

  • Field Notes/ReturnZero/Daily Notes/Day 686. 2023-05-17.md

Summary

2023-05-17 기준, Worker의 큐가 밀리는 위기 상황 발생. Worker 자체의 EPM(Estimated Performance Metric) 저하로 판단되며, RTFx 계산이 정상적으로 수행되지 않고 있음. Dynamic/No-dynamic 환경 및 Neural-ITN/Spacer 모델 간 성능 비교 데이터를 기록하고, 토크나이저의 최대 토큰 크기 초과 시 잘라내기, 클라이언트 측 토크나이징, ONNX 모델 분할(32/64) 등 즉각적인 개선 방안을 도출함.

Key Points

  • 현상: Worker 큐 병목, RTFx 계산 불가, Worker EPM 저하 의심
  • 성능 데이터: Concurrency 10 기준, Dynamic Neural-ITN(101.67 infer/sec) vs Spacer(112.95 infer/sec) 등 모델별 Throughput/Latency 비교
  • 개선 과제 1 (Tokenizer): MAX_TOKEN_SIZE 초과 시 잘라내기 및 Detokenizer 복구 로직 구현
  • 개선 과제 2 (Dadumi): Spacer/ITN 분리 요청, 클라이언트 측 토크나이징 도입
  • 개선 과제 3 (Model): ONNX 모델 32/64 토큰 단위로 분할 생성