빅데이터의 정의와 접근법 (김형준, 2012)
Source
Evernote/Technote scraps/Bloter.net » Blog Archive » 기고 빅데이터란 무엇이고, 어떻게 해야 할까.md
Summary
본문은 2012년 당시 뜨거웠던 빅데이터 개념을 기술적, 비즈니스적 관점에서 정의한다. 빅데이터를 단순한 데이터의 물리적 크기(Volume)가 아닌, ‘주어진 비용과 시간 내에 기존 시스템으로 처리 가능한 범위를 넘어서는 데이터’로 정의한다. 즉, 기업에게 중요하지만 고가의 전통적 솔루션(Oracle 등)으로 처리하기에는 비용 대비 효율이 낮거나 실시간 처리가 필요한 데이터를 다루는 기술군을 의미한다. 주요 특징으로 Volume(속성 기반의 크기), Velocity(실시간 처리 포함), Various(비정형 데이터 포함)를 제시하며, Hadoop, NoSQL, MapReduce 등 인터넷 서비스 기업(Google 등)에서 주도한 오픈소스 기술들이 이 문제를 해결하는 핵심이라고 설명한다.
Key Points
- 빅데이터 정의: 주어진 비용/시간 내에서 처리 가능한 범위를 초과하는 데이터. 단순 분석(BI/DW)이 아닌 실시간 요청 처리까지 포함.
- 비용/시간 기준: 고가 솔루션으로 처리 가능한 중요 데이터는 빅데이터가 아님. 비용 효율성이 낮은 대용량/실시간 데이터 처리 기술이 빅데이터 기술.
- 3V 특징: Volume(물리적 크기보다 처리 난이도/속성), Velocity(배치+실시간), Various(정형+비정형/SNS 데이터).
- 기술 주도권: 전통적 SW 벤더(Oracle, IBM)가 아닌 인터넷 서비스 기업(Google, Facebook 등)이 주도하며, Hadoop/NoSQL이 핵심 기술.
- 주요 기술 스택: Hadoop(HDFS, MapReduce), NoSQL(HBase, Cassandra), 스트리밍(Storm), 데이터 마이닝(Mahout) 등.