실시간 트윗 검색을 위한 블룸 필터 체인(Bloom Filter Chains) 기반 후보 생성

Source

  • Evernote/IFTTT Feedly/Fast candidate generation for real-time tweet search with bloom filter chains.md

Summary

본 문서는 실시간 트윗 검색 환경에서 2단계 검색 아키텍처의 초기 후보 생성 단계를 최적화하는 방법을 다룹니다. Nima Asadi와 Jimmy Lin은 고정된 거짓 양성률(false positive rate)을 유지하면서 무한히 증가하는 정수 리스트를 효율적으로 표현할 수 있는 ‘블룸 필터 체인(Bloom filter chains)‘이라는 새로운 자료 구조를 제안합니다. 이는 고사양 스트리밍 데이터에 대한 실시간 검색 성능 향상을 목표로 합니다.

Key Points

  • 실시간 검색(Real-time search)의 핵심 과제로 고사양 스트림에 대한 즉각적인 결과 제공을 제시함
  • 2단계 검색 아키텍처에서 초기 후보 생성(Candidate generation) 단계의 효율성 개선을 목표함
  • 기존 블룸 필터의 한계를 극복하기 위해 동적으로 확장 가능한 ‘블룸 필터 체인’을 제안함
  • 임의의 길이로 증가하는 단조 증가 정수 리스트를 고정된 거짓 양성률로 효율적으로 표현 가능함