ReturnZero Day 1134: 에어갭 환경 구축 및 MWW 오류 대응

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1134. 2024-08-07.md

Summary

2024-08-07 ReturnZero 프로젝트의 일일 업무 기록입니다. 주요 과제로 에어갭(Air-gap) 환경에서의 GPU Operator 설치 실패 및 대안(InitContainer, NFS) 모색, Triton Server 버전 조정(23.10→23.02), 그리고 MWW 서비스의 gRPC 타임아웃 오류(3시간 이상 처리 시 Deadline exceeded) 분석이 있습니다. 또한 SIMS Trainer 0.3.0 배포 준비 및 오프라인 레지스트리/모델 리포 구성을 위한 디렉토리 구조 정리가 진행되었습니다.

Key Points

  • 에어갭 환경에서 GPU Operator 설치가 yum 의존성 문제로 실패하여, InitContainer 활용 또는 NFS 설정을 통한 이미지/모델 복사 방식으로 전환
  • Triton Server 버전을 23.10 에서 호환성 문제로 23.02 로 다운그레이드하여 테스트 진행
  • MWW 음성인식 서비스에서 대용량 파일(1GB) 처리 시 3시간 경과 후 gRPC Deadline exceeded 오류 발생, 클라이언트 설정 문제 의심 및 장기 테스트 진행 중
  • SIMS Trainer 0.3.0 배포를 위한 이미지 업데이트(openapi, engine) 및 설정 파일(lm.v0.3.0.yaml) 호환성 작업
  • 오프라인 환경 구축을 위한 디렉토리 구조(kubespray-offline, docker-images, models 등) 정의 및 Ansible 스크립트 정리 계획
  • Triton 모델 로딩 시 libcublas.so.11 누락 및 model.plan 파일 로드 실패 등 환경 변수/라이브러리 이슈 확인