E-Tree: 데이터 스트림용 앙상블 모델 효율적 인덱싱 구조
Source
Evernote/Inbox/E-Tree An Efficient Indexing Structure for Ensemble Models on Data Streams.md
Summary
데이터 스트림 분류에서 앙상블 학습은 정확도는 높으나, 예측 시 모든 베이스 분류자를 선형 스캔해야 해서 응답 시간이 길어지는 문제가 있다. 본 논문은 이를 해결하기 위해 ‘E-Tree’라는 새로운 인덱싱 구조를 제안한다. E-Tree는 앙상블을 공간 데이터베이스로 취급하여 R-Tree와 유사한 균형 구조를 사용해 예측 복잡도를 선형에서 아선형(sub-linear)으로 낮춘다. 또한 새로운 분류자를 통합하고 오래된 것을 제거하며 자동으로 업데이트되어 개념 드리프트(concept drifting)에 적응한다. 합성 및 실세계 데이터 스트림에 대한 실험을 통해 성능을 입증했다.
Key Points
- 문제점: 기존 앙상블 학습은 예측 시 베이스 분류자 수에 비례하는 선형 스캔 비용으로 인해 실시간 데이터 스트림(예: 웹 트래픽 모니터링, 스팸 탐지)에 적용하기 어려움.
- 해결책: E-Tree(Ensemble-tree) 인덱싱 구조 제안.
- 핵심 메커니즘 1: R-Tree와 유사한 높이 균형 구조를 사용하여 예측 시간 복잡도를 아선형(sub-linear)으로 감소.
- 핵심 메커니즘 2: 새로운 분류자 통합 및 구식 분류자 제거를 통한 자동 업데이트로 데이터 스트림의 변화(Concept Drifting)에 적응.
- 검증: 이론적 분석 및 합성/실세계 데이터 스트림을 통한 실험적 성능 입증.
Related
-
Supporting Flexible, Efficient, and User-Interpretable Retrieval of Similar Time Series
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
Structured Streaming Skeleton (SSS): 온라인 인간 제스처 인식용 새로운 특징 추출 방법
-
Dynamic Time Warping for Music Conducting Gestures Evaluation
-
λ-Diverse Nearest Neighbors Browsing for Multidimensional Data
-
A term-based inverted index partitioning model for efficient distributed query processing
-
Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions
-
Generalized Optimal Response Time Retrieval of Replicated Data from Storage Arrays