Run:ai - 쿠버네티스 딥러닝 워크로드 분산 밸런싱

Source

  • Google Keep/RUN_AI - 쿠버네티스 딥러닝 워크로드 분산 밸런싱.md

Summary

Run:ai는 쿠버네티스의 GPU 가상화 한계(물리 GPU 전용 할당, 메모리 오버플로우 등)를 해결하기 위해 가상화된 논리 GPU를 생성하여 여러 딥러닝 워크로드가 간섭 없이 공유할 수 있도록 한다. 이를 위해 쿠버네티스를 수정하여 GPU 할당을 정수형에서 실수형(비율적 할당)으로 변경하는 방식을 제시한다.

Key Points

  • 쿠버네티스는 물리 GPU만 할당 가능하며 GPU 자원 가상화가 부족함
  • Run:ai는 가상화된 논리 GPU를 생성해 간섭 없는 다중 워크로드 실행 지원
  • 쿠버네티스 수정을 통해 GPU 할당을 정수형에서 실수형(비율)으로 변경