RTZR-STT 서비스 Istio 네트워크 정책 및 장애 조치 실험 (2024-10-30)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1218. 2024-10-30.md

Summary

RTZR-STT 서비스의 성능 저하 및 장애 문제를 해결하기 위해 Istio의 externalTrafficPolicy, DestinationRule(아웃라이어 감지), VirtualService(재시도 로직) 설정을 조합하여 실험함. 모든 서비스를 Local 정책으로 강제하거나 재시도 로직을 추가했을 때 성능이 급격히 저하되거나 오류가 발생했으나, externalTrafficPolicyLocal로 설정하고 아웃라이어 감지 규칙을 적용한 상태에서 노드 고장 시에도 비교적 안정적인 성능을 유지하는 것으로 확인됨. 특정 노드(1번) 고장 시 오류 발생 및 지연 시간 증가 현상이 관찰됨.

Key Points

  • 실험 대상: cpu1, gpu1, gpu2 노드 기반 RTZR-STT 서비스
  • 조치 1 (전체 Local 정책): 모든 서비스의 externalTrafficPolicy를 Local로 설정 시 성능 저하 및 오류 발생
  • 조치 2 (DestinationRule 수정): LEAST_REQUEST 로드밸런싱 및 아웃라이어 감지(연속 2회 실패 시 30초 제외) 적용
  • 조치 3 (VirtualService 재시도): 재시도 로직 추가 시 시스템 불안정(‘고자됨’)
  • 최적 조합: Istio Gateway만 externalTrafficPolicy: Local 설정 + DestinationRule 아웃라이어 감지 적용 시 정상 동작
  • 장애 시나리오: 1번 노드 고장 시 오류 카운트 증가 및 지연 시간(latency) 급증 현상 확인
  • 성능 지표: 정상 시 평균 지연 시간 ~20ms 대, 장애 시 ~50-150ms 대로 증가