대용량 텍스트 컬렉션에서의 효율적 퍼지 검색

Source

  • Evernote/Inbox/Efficient fuzzy search in large text collections.md

Summary

본 논문은 대규모 텍스트 컬렉션(100GB 이상)에서 실시간(interactive) 퍼지 풀텍스트 검색을 가능하게 하는 새로운 전처리 기법을 제시합니다. 기존 역색인(inverted-index) 방식은 10GB 이상의 데이터에서 100ms 미만의 응답 시간을 달성하지 못하는 한계가 있었으나, 제안된 방법은 단일 머신에서도 대용량 데이터에 대해 실시간 검색 성능을 확보합니다. 유사도 측정 기준으로는 오타 허용(예: algorithm-algoritm) 및 접두사 유사성(예: alori-algorithm) 두 가지를 다룹니다.

Key Points

  • 기존 역색인 방식은 대용량(>10GB) 퍼지 검색에서 실시간 응답(100ms 미만) 달성에 실패함
  • 새로운 전처리 기법을 통해 단일 머신에서 100GB 텍스트 컬렉션에 대해 실시간 검색 가능
  • 오타 허용 매칭 및 접두사 유사성 매칭 두 가지 유사도 측정 기준 적용