E164 마이그레이션 장애 및 멀티클러스터 리소스 이슈 (Day 188)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 188. 2022-01-04.md

Summary

리서치팀 합류 초기, E164 변환 마이그레이션으로 인한 클라이언트 측 UID 중복 요청 및 앱 크러시 장애를 파악함. 또한 멀티클러스터 환경에서 피크타임 리소스 부족 문제를 해결하기 위해 인스턴스 다운그레이드(4xlarge -> 2xlarge) 또는 서울 리전 활성화 등 대안을 검토 중임.

Key Points

  • E164 마이그레이션 과정에서 미처 발견하지 못한 케이스로 인해 클라이언트에서 UID 중복 요청 발생
  • 사용자 파트너 목록 이상으로 인한 메인 화면 진입 불가 및 앱 크러시 리포트
  • 멀티클러스터 환경에서 오레곤 리전 피크타임(미국 서부시간 17~19시) 리소스 부족 문제
  • 리소스 부족 해결을 위한 인스턴스 크기 축소(2xlarge) 시도 및 서울 리전 수동 활성화 검토
  • 급박한 상황에서도 QA 과정을 거치는 배포 프로세스 준수 필요성 인식