MLOps 인프라 및 데이터 과학 공정 현황 (Day 251)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 251. 2022-03-08.md

Summary

재택근무 중 MLOps 관련 논의 내용을 기록한 일기 형식 노트입니다. 주요 내용은 쿠버네티스(EKS) 기반 인프라 구축, 리서치팀과 서버팀 간의 모델 이미지 전달 및 배포 프로세스, 그리고 학습(온프레미스)과 프로덕션(AWS) 환경의 차이로 인한 추론 중심 아키텍처에 대한 고민입니다. 또한 데이터 추출부터 모델 평가까지의 데이터 과학 공정 단계와 머신러닝 성능 모니터링(알림 시스템)의 필요성을 언급합니다.

Key Points

  • 인프라: 쿠버네티스(EKS) 기반 MLOps 환경 구성 논의
  • 배포 프로세스: 리서치팀(이미지 빌드) -> 서버팀(dev/cbt 배포) -> 프로덕션
  • 환경 격리: 학습은 사내 온프레미스, 프로덕션(추론)은 AWS 사용
  • 모니터링: 머신러닝 성능 품질에 대한 알림 시스템 필요성 제기 (아서의 테스터기 역할)
  • 데이터 과학 공정: 데이터 추출(VTS/VITO) -> 분석 -> 준비(정제) -> 학습 -> 평가(홀드아웃 테스트 등)