imgix 성능 개선 및 문제 원인 분석 (2017)

Source

  • Evernote/Inbox/How We Are Improving Performance imgix Blog.md

Summary

imgix CEO Chris Zacharias는 2017년 초 발생한 서비스 성능 저하에 대해 사과하며 그 원인과 해결 방안을 공개했다. 주요 원인은 예상치 못한 5배의 트래픽 증가(용량 계획 오류), 새로운 사용 사례에 대한 최적화 부족(아키텍처 한계), 그리고 네트워크 공급자 장애와 같은 불운한 외부 요인이 복합적으로 작용했기 때문이다. 해결책으로 렌더링 용량 50% 증설(3월까지), 요청 타겟팅 레이어 및 GIF 인코딩 최적화, 캐시 히트율 향상을 통한 노드 효율 증대, 그리고 별도의 상태 페이지 업데이트 파저 도입과 고객 지원 팀 확충을 통한 소통 강화 조치를 취했다.

Key Points

  • 성능 저하의 주된 원인은 2017년 초 대비 5배로 급증한 렌더링 트래픽에 대한 용량 계획의 부족이었다.
  • 기존 아키텍처가 최적화하지 못한 새로운 유형의 요청이 증가하며 리소스 소모가 예상보다 컸다.
  • IP 전송 공급자 장애, 네트워크 인프라 고장, 낮은 캐시 히트율 등 외부 및 우발적 요인이 겹쳤다.
  • 해결 조치로 렌더링 용량을 25% 증설하고 3월 말까지 추가 25%를 더 늘렸다.
  • 요청 타겟팅 레이어의 용량 증대 및 하드웨어 보강, 렌더 노드당 10-15% 효율 향상, GIF 인코딩 경로 최적화를 수행했다.
  • 고객 소통 개선을 위해 상태 페이지 업데이트 전용 파저를 도입하고 고객 지원 팀을 확충했다.