실시간 트윗 검색을 위한 블룸 필터 체인(Bloom Filter Chains) 기반 후보 생성
Source
Evernote/IFTTT Feedly/Fast candidate generation for real-time tweet search with bloom filter chains.md
Summary
본 문서는 실시간 트윗 검색 환경에서 2단계 검색 아키텍처의 초기 후보 생성 단계를 최적화하는 방법을 다룹니다. Nima Asadi와 Jimmy Lin은 고정된 거짓 양성률(false positive rate)을 유지하면서 무한히 증가하는 정수 리스트를 효율적으로 표현할 수 있는 ‘블룸 필터 체인(Bloom filter chains)‘이라는 새로운 자료 구조를 제안합니다. 이는 고사양 스트리밍 데이터에 대한 실시간 검색 성능 향상을 목표로 합니다.
Key Points
- 실시간 검색(Real-time search)의 핵심 과제로 고사양 스트림에 대한 즉각적인 결과 제공을 제시함
- 2단계 검색 아키텍처에서 초기 후보 생성(Candidate generation) 단계의 효율성 개선을 목표함
- 기존 블룸 필터의 한계를 극복하기 위해 동적으로 확장 가능한 ‘블룸 필터 체인’을 제안함
- 임의의 길이로 증가하는 단조 증가 정수 리스트를 고정된 거짓 양성률로 효율적으로 표현 가능함
Related
-
스트림 처리 최적화 카탈로그 (A catalog of stream processing optimizations)
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling
-
Generalized Optimal Response Time Retrieval of Replicated Data from Storage Arrays
-
실내 이동 객체를 위한 거리 기반 조인 (Distance-Aware Join for Indoor Moving Objects)
-
Near-duplicate video retrieval: Current research and future trends