Day 57: Production Deployment & Scaling Issues (2021-08-26)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 57. 2021-08-26.md

Summary

프로덕션 배포 과정에서 AWS 가용영역(AZ) 및 VPC 설정 오류로 인한 인스턴스 생성 실패와 재시도 과정을 기록함. TDIAR 큐 쌓임(VAD 병목) 문제와 nginx 웨이트 조절, TF 모델 웜업 시간 부족으로 인한 GPU 사용률 급감 현상 분석. 동적 스케일링(업/다운)을 위한 EPM 기준 및 VAD 처리량 계산 논의.

Key Points

  • 프로덕션 배포 시 AZ/Subnet/VPC 설정 불일치로 인한 인스턴스 생성 실패 및 수동 수정 과정
  • TDIAR 큐 쌓임 원인: VAD 처리량 부족 및 매칭 문제
  • TF 모델 메모리 로딩(웜업) 시간(약 40분) 부족으로 인한 GPU 사용률 급감 및 nginx 웨이트 조절 필요성
  • 동적 스케일링 전략: Kibana 대시보드 기반 분당 전사처리량(EPM)과 VAD 대수 비교를 통한 스케일 다운 기준 논의
  • nginx-grpc 설정 리로드 자동화(while 문) 및 EFS 마운트 경로 확인