MillWheel: 인터넷 규모 내결함성 스트림 처리

Source

  • Evernote/IFTTT Feedly/MillWheel Fault-Tolerant Stream Processing at Internet Scale.md

Summary

구글에서 널리 사용되는 저지연 데이터 처리 프레임워크인 MillWheel의 프로그래밍 모델과 구현을 설명합니다. 사용자는 방향성 계산 그래프와 노드별 코드를 지정하면, 시스템은 내결함성 보장 하에 영구 상태와 레코드 흐름을 관리합니다. 논리적 시간(logical time) 개념을 제공하여 시간 기반 집계 작성을 단순화하며, 확장성과 내결함성을 핵심 설계 원칙으로 합니다. 구글의 연속 이상치 탐지 사례를 통해 기능 활용을 보여줍니다.

Key Points

  • 구글 내부에서 널리 쓰이는 저지연 스트림 처리 프레임워크
  • 사용자는 방향성 계산 그래프 정의, 시스템은 상태 관리 및 내결함성 보장
  • 논리적 시간(logical time) 개념을 통한 시간 기반 집계 단순화
  • 확장성(Scalability)과 내결함성(Fault Tolerance)을 최우선 설계
  • 구글의 연속 이상치 탐지(Continuous Anomaly Detector) 사례 연구 포함