두나무 프로젝트 EKS 도입 및 배치 처리 아키텍처 검토

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1315. 2025-02-04.md

Summary

두나무 프로젝트의 EKS 시험 환경 구축 일정(2 월 말 설치, 3 월 초 데이터 전사 시작)과 필수 애드온(Istio, Prometheus)을 정리함. 또한 Triton 기반 배치 처리 시 리소스 분리 전략(Online/Batch 파드 분리) 및 Helm 차트의 하위 호환성 유지 방안을 논의함. 운영계 이전 시 EC2 기반 Kubespray 구성, ALB 연동, Docker 레지스트리(ECr/S3) 정책 미정 등 DevOps 인프라 관련 이슈와 일정(2/17, 2/28)을 기록함.

Key Points

  • 두나무 EKS 시험 환경: 2 월 말 설치 목표, 3 주 소요되는 데이터 전사 작업 병행 예정
  • EKS 필수 애드온: Istio, Istio Ingress Gateway, Prometheus Stack(Grafana)
  • Triton 배치 처리 아키텍처: Online/Eval 과 Batch 리소스 분리(ASR 등 2 개 파드), Helm 차트에서 Instance 별 Affinity/ReplicaCount 설정 지원 및 기존 Values 하위 호환 유지
  • 운영계 인프라 검토: EC2 기반 Kubespray-offline(Rocky 9) 구성, ALB 연동 방식, Docker 레지스트리(ECr 또는 S3) 정책 미정으로 DevOps 팀 협업 필요
  • 일정: 2/17 운영계 세팅 검토, 2/28 운영계 전환 목표