카카오 컨테이너 플랫폼 및 MPC 아키텍처 개요
Source
Google Keep/이프카카오.md
Summary
본 문서는 카카오의 내부 컨테이너 플랫폼(DKOS) 구축 배경과 기술 스택, CI/CD 파이프라인 전환, 그리고 대규모 병렬 컴퓨팅(MPC) 환경에서의 네트워크 및 스케줄링 최적화 전략을 다룹니다. 쿠버네티스의 복잡성을 해소하기 위해 DKOS를 개발했으며, CI/CD는 GoCD에서 젠킨스 파이프라인으로 전환하여 자동화를 강화했습니다. MPC 분야에서는 저지연 네트워크(SR-IOV, eBPF)와 MPI 오퍼레이터를 활용하여 렌더링 및 머신러닝 작업의 자원 효율성을 높이고 있습니다.
Key Points
- 카카오는 쿠버네티스 설정의 복잡성과 표준화 부족을 해결하기 위해 DKOS(D2Hub 기반)를 자체 개발하여 사용 중임.
- 모니터링은 Prometheus/Grafana, 로깅은 Fluentd/Elasticsearch 스택을 활용하며, 스토리지로는 OpenStack Swift 호환인 Kage를 사용함.
- CI/CD는 수작업 오류가 많았던 GoCD에서 젠킨스 파이프라인(Groovy)으로 전환하여 프로젝트별 맞춤형 배포를 지원함.
- 대규모 병렬 컴퓨팅(MPC) 환경에서는 ECMP, ARP Proxy, MPLS 등을 통한 네트워크 최적화와 SR-IOV, XDP/eBPF를 통한 저지연 처리를 구현함.
- MPI 오퍼레이터와 DKOS v3를 결합하여 머신러닝 및 렌더링 작업의 병렬 처리 효율을 높이고, ‘Simulation as a Service’ 형태의 서비스(Karrozzeria)를 구축 중임.