Run:ai - 쿠버네티스 딥러닝 워크로드 분산 밸런싱
Source
Google Keep/RUN_AI - 쿠버네티스 딥러닝 워크로드 분산 밸런싱.md
Summary
Run:ai는 쿠버네티스의 GPU 가상화 한계(물리 GPU 전용 할당, 메모리 오버플로우 등)를 해결하기 위해 가상화된 논리 GPU를 생성하여 여러 딥러닝 워크로드가 간섭 없이 공유할 수 있도록 한다. 이를 위해 쿠버네티스를 수정하여 GPU 할당을 정수형에서 실수형(비율적 할당)으로 변경하는 방식을 제시한다.
Key Points
쿠버네티스는 물리 GPU만 할당 가능하며 GPU 자원 가상화가 부족함
Run:ai는 가상화된 논리 GPU를 생성해 간섭 없는 다중 워크로드 실행 지원
쿠버네티스 수정을 통해 GPU 할당을 정수형에서 실수형(비율)으로 변경
페이스북, Torch용 딥러닝 기술 오픈소스 공개
AGILE: IaaS용 탄력적 분산 리소스 스케일링
DeepMind 의 AI 협력 및 경쟁 실험 (Gathering & Wolfpack)
쉽게 풀어쓴 딥러닝(Deep Learning)의 거의 모든 것
CPI2: 공유 컴퓨터 클러스터용 CPU 성능 격리
CDN 부하 분산을 위한 분산 제어 법칙
RAID 소개: 여러 디스크를 지능적으로 사용하는 방법
가상화 기술의 역할 및 IEEE Internet Computing 특집호 개요
Facebook, 일부 딥러닝 도구 오픈소스화
PyTorch를 이용한 딥러닝 모델의 분산 학습 개요
자습해도 모르겠던 딥러닝, 머리속에 인스톨 시켜드립니다
신경망과 유전 알고리즘을 활용한 뱀 게임 AI 학습
신경망과 딥러닝 1. 퍼셉트론
AI 벤처기업 투자 열기 (2014)
분산 엣지 클라우드 (Decentralized Edge Clouds)
실시간 분산 미들웨어 표준에 대한 조사
딥러닝 수학 강의 영상 자료집 (모두의 연구소)
신경망을 이용한 자기 학습 헬리콥터
분산 웹 UI 및 모바일 클라우드 컴퓨팅 연구 개요
분산 상호작용 애플리케이션을 위한 클라이언트 할당 최적화
분산 환경에서의 검색 확장성 및 클러스터링 역설 연구
대규모 분산 시스템의 에너지 효율성 향상 기술 조사
인공신경망 학습 레시피 (Andrej Karpathy)
개인 연구개발 방향: 분산 컴퓨팅 및 그룹 렌더링
분산 시스템 설계 소개: 마이크로서비스 아키텍처에서의 분할 (CodeProject)
분산 제약 만족 문제 (Decentralized CSP) 솔버
브라우저 앙상블을 활용한 분산 컴퓨팅 (WeevilScout)
분산 가상 환경의 관심사 관리(Iinterest Management)에 대한 서베이
분산 구성 문제의 모델링 및 해결: CSP 기반 접근법
P2P 환경에서의 분산 컴퓨팅을 위한 탈중앙화 자원 발견 메커니즘
분산 네트워크 슬라이싱: 대규모 IoT 및 LoRaWAN 환경에서의 연합 게임 이론 적용
S2S 논문 전개 개요
APRICOD: 접근 패턴 기반 분산 캐싱 미들웨어
DIP: P2P 라이브 스트리밍의 오염자 분산 식별
카프카-스파크 및 인덱스 기술 논의 요약
시뮬레이션을 활용한 전술 임무용 다중 에이전트 알고리즘 개발
1980 년대 기술 환경에서의 위키백과 가상의 모습
대규모 소프트웨어의 정밀한 의존성 추출 도구
MCC Offloading 연구일지
IPFS: 분산 웹의 핵심 개념과 활용
을미년 2주차 랩 논문 미팅 요약
TensorTrade SAC 에이전트 디버깅 및 거래 로직 개선
조건부 도메인 제약 하의 손실 없는 선택 뷰
k-원자성 검증 문제 (k-atomicity-verification problem) 연구
The Green Abstraction Layer: A Standard Power-Management Interface for Next-Generation Network Devices
QoE 기반 자원 할당 및 수요 조절 메커니즘
분산 RESTful 서비스 구성을 위한 제어 흐름 패턴
DSLabs: 분산 시스템 교육용 모델 체킹 프레임워크
Dissecting Darknets: Measurement and Performance Analysis
P2P 기반 시장 유도형 분산 라우팅 메커니즘 (MDR)
D2D 강화 셀룰러 네트워크의 분산 자원 할당
네트워크 가상화 환경의 장애 관리: 과제와 해결책
계산 오프로드 문제 (Computation Offloading)
NDC2017: VAE를 이용한 게임 콘텐츠 생성 기법 연구 사례
IoT 실시간 애플리케이션을 위한 QoS 및 강건성 기반 자원 프로비저닝
대규모 분산 음향 모델링 및 백오프 N-그램
분산 합의 재검토 (Part I): Paxos 의 일반화 및 안전성 증명
P2P 네트워크 시뮬레이터의 현황 및 재현성 문제
분산 및 효율적인 객체 탐지를 위한 디바이스, 엣지, 클라우드 간 상호작용
무선 네트워크 가상화를 위한 확률 게임 프레임워크
The Creative AI Landscape (2017)
스마트 그리드 예측 모델의 전방위적 평가 지표
Cloud Federations Economics, Games and Benefits
DART: IoT를 위한 스펙트럼 인식 엣지 컴퓨팅 서비스 배치
동맹 환경에서 ISR 자산의 민첩한 임무 할당
GPU 에너지 효율성 분석 및 개선 방법론 조사
VoD 시스템용 네트워크 인지형 캐싱 프레임워크
D2D 통신을 위한 결합 모드 선택 및 자원 할당
ERP 시스템의 핵심 성공 요인(CSFs): 지난 10 년간 연구 리뷰
인프라 시스템 구성 기본 패턴
Fog Computing 환경의 Object Store 데이터 위치 관리 프로토콜
Problem Solving with Algorithms and Data Structures using Python (서지 정보)
기계학습 고급 컨셉 및 연구자 조언 (노영균 교수 특강)
CommonBond, P2P 학자금 대출 플랫폼 확장
종량제 계약 모델 및 엣지 컴퓨팅 스케줄링 논의
MCC Offloading 연구 진행 상황 및 전략 수정 (2016)
Extending Net-Centricity to Coalition Operations
Depth-Image-Based Rendering 기반 모바일 다중 뷰 3D 비디오의 효율적 자원 할당
대규모 MANET을 위한 DHT 기반 라우팅 서베이
P2P VoD 환경에서의 복제 알고리즘 분석 (On Replication Algorithm in P2P VoD)
머신러닝의 학습 가능성과 괴델의 불완전성 정리
분산 Mirror-Prox 최적화를 통한 MEC 네트워크 지연 최소화
KamitaniLab DeepImageReconstruction 데이터 및 데모 코드
G-RCA: 대규모 IP 네트워크를 위한 서비스 품질 관리용 일반화된 근본 원인 분석 플랫폼
Edge Computing에서의 프라이버시 아키텍처 고려사항
엣지 플랫폼을 위한 서비스 정의형 오케스트레이션 접근법
클라이언트 유틸리티 시간 계산 로직 검토
FSR: 안전한 인터도메인 라우팅을 위한 형식 분석 및 구현 툴킷
지연 허용 비동기 분산 온라인 학습 알고리즘
Obfuscatory Obscanturism: 상업적 민감성 시스템의 워크로드 트레이스 안전하게 공개하기
TSFS: IoT 스마트홈의 ADL 감지를 위한 통합 이벤트 분할 접근법
Xbox One 클라우드 컴퓨팅 아키텍처 및 게임 성능 향상 방안
지연 시간 및 신뢰성 기반 MEC 워크로드 할당
드론을 위한 엣지 기반 실시간 비디오 분석
동시 제공 IPTV 시스템의 사용자 행동 분석
Kubernetes 로드 밸런싱 전략 비교 (L4, L7, Ring Hash, Maglev)
엣지-클라우드 하이브리드 시스템의 자원 할당 및 데드라인 모델링 고민
Whare-Map: 대규모 컴퓨팅 환경의 이질성(Heterogeneity) 활용
Xunlei Kankan: 하이브리드 CDN-P2P VoD 스트리밍 분석
동적 재구성 가능한 IoT 카메라 가상화를 위한 에지 클라우드 서비스