CPI2: 공유 컴퓨터 클러스터용 CPU 성능 격리
Source
Evernote/Papers/CPI2 CPU performance isolation for shared compute clusters.md
Summary
구글은 공유 리소스(캐시, 메모리 버스 등)로 인한 성능 간섭 문제를 해결하기 위해 CPI2 시스템을 개발했다. CPI2는 하드웨어 성능 카운터에서 얻은 CPI(Cycles-Per-Instruction) 데이터를 활용하여 성능 저하의 원인이 되는 프로세스를 식별하고, 필요시 이를 스로틀링하여 피해 프로세스의 성능을 복원한다. 이 시스템은 동일 작업 내 여러 태스크의 데이터를 집계하여 정상 및 이상 행동을 자동으로 학습하며, 현재 구글의 모든 공유 컴퓨팅 클러스터에 배포되어 실제 운영 환경의 문제를 해결하고 있다.
Key Points
- 공유 컴퓨팅 환경에서 리소스 간섭으로 인한 성능 불안정 문제 해결
- 하드웨어 성능 카운터 기반 CPI 데이터 활용하여 문제 원인 프로세스 식별
- 원인 프로세스에 대한 선택적 스로틀링을 통한 피해자 성능 복원
- 다중 태스크 데이터 집계를 통한 정상/이상 행동의 자동 학습
- 구글 전역 공유 컴퓨팅 클러스터에 실제 배포 및 검증 완료