Triton 배포 및 모델 컴파일 파이프라인 정리 (Day 576)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 576. 2023-01-27.md

Summary

Triton 서버 연동 성공 및 Hydra 설정 관리 방식을 YAML 기반 정적 설정으로 전환하는 작업을 진행함. TensorRT 최적화(batch size 탐색) 및 모델 컨버터 코드 정리, 디렉토리 구조 패키징(NeMo 스타일 모방)을 주요 과제로 다룸. 또한 입력 시퀀스 길이 제한(128) 처리 및 앙상블 모델 컴파일 계획 포함.

Key Points

  • Triton 서버 연동 성공 및 Hydra 설정 파일 분리 저장 필요성 확인
  • TensorRT 최적화: trtexec를 통한 max batch size 탐색 및 성능 로그 저장
  • 설정 관리 방식 변경: Hydra runner 대신 정적 YAML 파일 읽기로 전환 (변수 확정 시 Hydra 불필요)
  • 프로젝트 구조 재구성: NeMo 저장소 구조 모방, WFST 및 Thutmose tagger 통합 패키징
  • 모델 파이프라인: 모델 컨버터 코드 정리, 앙상블 모델 컴파일, 디스틸레이션 생략 검토
  • 제약 조건: 최대 시퀀스 길이 128 초과 입력은 입력 단계에서 필터링