MWW EKS 배포 장애 및 RT-Annotation 문서화 개선

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1167. 2024-09-09.md

Summary

MWW EKS 환경에서 Conformer 및 VAD 모델의 GPU 호환성 오류(CUDA/TensorRT)로 인한 크래시와 리소스 부족으로 인한 스케줄링 실패 문제를 진단하고, 리소스 할당(CPU/메모리)을 낮추어 임시 해결했다. 또한 RT-Annotation 툴의 사용자 문서에 목적, 입출력, 데이터 반영 로직, 버튼 기능 등 핵심 설명 항목이 누락되어 있음을 지적하고 보완 필요성을 제기했다.

Key Points

  • MWW EKS 노드에서 EFS 마운트 문제 확인 및 Helm 재시도
  • Conformer 모델: GPU ID 0의 CUDA 컴퓨트 호환성 부족(최소 6.0 필요)으로 UNAVAILABLE 상태
  • VAD 모델: TensorRT 백엔드가 GPU 장치만 지원하여 로딩 실패 및 크래시 발생
  • Kubernetes 스케줄링 실패: CPU/메모리 부족 및 노드 어피니티 불일치로 인한 Pod Pending
  • 임시 조치: CPU 요청을 0.5, 메모리를 4500Mi로 낮추어 3개 Pod 실행 성공
  • RT-Annotation 툴 문서화 미비: 목적, 입출력 정의, 데이터 소스 및 반영 로직, 버튼 기능(New task, Submit 등) 설명 누락