MWW EKS 배포 장애 및 RBAC/스케줄링 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1163. 2024-09-05.md

Summary

2024-09-05 업무 기록으로, MWW EKS 환경에서 Helm 차트 업그레이드 중 RBAC 권한 부족 오류와 노드 스케줄링 실패(디스크 압력, 어피니티 불일치)가 발생함. 차트 패치 시도 및 문제 해결을 위해 월요일로 미루고, 차트 정리 및 릴리즈 프로세스(Values 관리)를 남은 일로 기록함.

Key Points

  • MWW EKS 환경에서 Helm 업그레이드 실패: RBAC 권한 부족 (vito 사용자의 pods/jobs 접근 권한 문제)
  • Pod 스케줄링 실패 원인: 노드의 disk-pressure taint 및 node affinity/selector 불일치
  • 대응 현황: 차트 패치 시도, 문제 해결은 월요일로 연기
  • 향후 과제: 차트 정리, 릴리즈 프로세스 개선, Values 관리 방안 모색