SIMS 개발계 배포 및 Envoy gRPC 로드밸런싱 설정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 979. 2024-03-06.md

Summary

이 노트는 MWW 개발계 SIMS 서비스의 도커/헬름 기반 배포 가이드와 Envoy를 통한 gRPC 로드밸런싱 설정을 다룹니다. 도커 이미지 위치, 라이선스 키 설정, Helm 차트 경로 등 배포 환경 구성 정보를 제공하며, NKS 환경에서 SSD 용량 부족으로 인한 트라이톤 서버 이미지 배포 실패 이슈와 GPU/CPU 노드 간 스토리지 공유 문제 등 실제 운영 중 발생한 장애 요인을 기록하고 있습니다. 또한 Envoy health check 설정 예시와 gRPC 서비스 연결 테스트 명령어를 포함하고 있습니다.

Key Points

  • SIMS 서비스 배포: 도커 컴포즈 및 Helm 차트 기반 설치 가이드 제공 (라이선스 키, 모델 디렉토리 구조 명시)
  • 배포 환경 이슈: NKS 노드의 SSD 용량 부족(50GB)으로 13GB 트라이톤 서버 이미지 배포 실패
  • 인프라 제약: GPU 노드와 CPU 노드 간 스토리지 공유 불가로 인한 개발계 올리기 실패 및 재작업 필요
  • Envoy gRPC LB: gRPC 서비스의 Envoy 프록시 설정 및 헬스 체크 구성 예시(timeout, interval, threshold 등)
  • 서비스 검증: grpcurl을 이용한 gRPC 헬스 체크 및 Pronaia 온라인 서비스 실행 명령어 기록