Fast Data Processing with Spark (도서 소개)

Source

  • Evernote/IFTTT Feedly/Fast Data Processing with Spark.md

Summary

이 문서는 ‘Fast Data Processing with Spark’라는 책의 간략한 소개입니다. Apache Spark가 Hadoop MapReduce 대비 인메모리 처리와 함수형 API를 통해 빠른 분산 처리를 가능하게 하며, Shark(인터랙티브 쿼리), Bagel(그래프 처리), Spark Streaming(실시간 분석) 등 다양한 도구와 통합됨을 설명합니다. 책은 클러스터 설정(스탠드얼론, EC2 등), 인터랙티브 셸을 통한 API 탐색, Java/Scala/Python 기반 분산 작업 작성 및 배포, RDD 조작, Shark를 통한 SQL 유사 쿼리 사용 등 Spark 활용의 전 과정을 다룹니다.

Key Points

  • Apache Spark는 Hadoop MapReduce와 유사한 문제를 인메모리 접근 방식과 함수형 API로 빠르게 해결하는 분산 처리 프레임워크입니다.
  • Shark, Bagel, Spark Streaming 등 내장 도구를 통해 인터랙티브 쿼리, 대규모 그래프 처리, 실시간 분석이 가능합니다.
  • 책의 주요 내용은 Spark 클러스터 설정, 인터랙티브 셸을 통한 프로토타이핑, Java/Scala/Python을 이용한 분산 작업 작성 및 배포, RDD 조작, Hive/Shark 연동 등입니다.
  • 출판사: Packt Publishing, 저자: Karau 등 (원문 링크 참조)