대용량 텍스트 컬렉션에서의 효율적 퍼지 검색
Source
Evernote/Inbox/Efficient fuzzy search in large text collections.md
Summary
본 논문은 대규모 텍스트 컬렉션(100GB 이상)에서 실시간(interactive) 퍼지 풀텍스트 검색을 가능하게 하는 새로운 전처리 기법을 제시합니다. 기존 역색인(inverted-index) 방식은 10GB 이상의 데이터에서 100ms 미만의 응답 시간을 달성하지 못하는 한계가 있었으나, 제안된 방법은 단일 머신에서도 대용량 데이터에 대해 실시간 검색 성능을 확보합니다. 유사도 측정 기준으로는 오타 허용(예: algorithm-algoritm) 및 접두사 유사성(예: alori-algorithm) 두 가지를 다룹니다.
Key Points
- 기존 역색인 방식은 대용량(>10GB) 퍼지 검색에서 실시간 응답(100ms 미만) 달성에 실패함
- 새로운 전처리 기법을 통해 단일 머신에서 100GB 텍스트 컬렉션에 대해 실시간 검색 가능
- 오타 허용 매칭 및 접두사 유사성 매칭 두 가지 유사도 측정 기준 적용
Related
-
Efficient Estimation of Word Representations in Vector Space
-
Generalized Optimal Response Time Retrieval of Replicated Data from Storage Arrays
-
A term-based inverted index partitioning model for efficient distributed query processing
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
Patent Query Formulation by Synthesizing Multiple Sources of Relevance Evidence
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Supporting Flexible, Efficient, and User-Interpretable Retrieval of Similar Time Series
-
Beyond Text QA: Multimedia Answer Generation by Harvesting Web Information
-
Point Representation for Local Optimization: Towards Multi-Dimensional Gray Codes
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Neighborhood Preserving Codes for Assigning Point Labels: Applications to Stochastic Search
-
Near-duplicate video retrieval: Current research and future trends
-
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine (Technical Supplement)