Torch 의존성 제거 및 Triton 이미지 배포 작업 (Day 658)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 658. 2023-04-19.md

Summary

이 노트는 PyTorch 의존성을 제거하고 Triton 기반 이미지로 전환하는 과정에서의 기술적 장애물과 배포 작업을 기록한다. 특히 torch.wherenp.where로 교체하는 과정에서 모듈 간 복잡한 의존성(rt_spacer, rt_neural_itn, nemo)으로 인해 현타를 겪었으며, 최종적으로 모델 갱신 후 7.5GB 크기의 Triton 이미지를 AWS ECR에 푸시하고 Kubernetes 권한 설정을 완료했다. 부수적으로 Qoo10 데이터 정합성 작업의 낮은 ROI에 대한 언급도 있다.

Key Points

  • PyTorch 의존성 제거 시도: torch.wherenp.where로 교체하는 작업 중 모듈 간 순환 참조 및 의존성 문제로 어려움 겪음.
  • 의존성 구조 분석: rt_spacer/data/utils -> rt_neural_itn/nemo/core -> nemo/data -> thutmose_tagger_dataset 경로에서 문제가 발생.
  • 해결 및 배포: 모델 갱신 후 Triton 이미지를 새로 빌드하여 7.5GB 크기로 AWS에 푸시함.
  • 인프라 설정: Kubernetes 및 AWS 권한 설정 작업 완료.
  • 기타: Qoo10 데이터 정합성 작업의 낮은 투자 대비 효과(ROI)로 인해 작업 중단 또는 우선순위 하향 조정.