BERT 모델의 ONNX 변환 및 Triton Server 배포 시도 (Day 559)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 559. 2023-01-10.md

Summary

BERT 기반 모델의 ONNX 변환 과정에서 동적 축(dynamic axes) 설정과 입력 shape 불일치로 인한 TensorRT(trtexec) 에러를 해결하고, Triton Inference Server 배포 시 모델 구성(config.pbtxt) 및 배치 처리 관련 오류를 겪으며 서버 기동 테스트를 진행함. 토크나이저를 ONNX 모델에 포함시키는 방안과 Worker-Redis-Triton 아키텍처에 대한 고민을 기록함.

Key Points

  • ONNX 변환 시 dynamic_axes 설정이 핵심 이슈였으며, 이를 수정하여 변환 성공
  • TensorRT 엔진 생성 시 입력 shape(min/opt/max)와 네트워크 정의 불일치로 인한 Internal Error 발생 및 해결 과정
  • Triton Server 배포 시 config.pbtxt의 dims 및 data_type 설정 오류로 인한 모델 로딩 실패 경험
  • Triton 서버 단독 기동 테스트 완료 (응답 코드 처리 미완성 상태)
  • 향후 과제: 토크나이저의 ONNX 포함 가능성 검토, Worker 프로세스 구현, 앙상블 모델 구축