Spaces, Trees, and Colors: 시퀀스 기반 문서 검색의 알고리즘 풍경

Source

  • Evernote/IFTTT Feedly/Spaces, Trees, and Colors The algorithmic landscape of document retrieval on sequences.md

Summary

본 문서는 Gonzalo Navarro 가 작성한 서베이 논문으로, 1960 년대부터 검색 엔진의 핵심이었던 문서 검색 (Document Retrieval) 기술의 한계와 확장을 다룹니다. 기존 역색인 (Inverted Index) 기반 기술은 자연어 처리에는 효과적이지만, 동아시아 언어 등 ‘자연어’ 가정이 성립하지 않는 시나리오에서는 한계가 있습니다. 이에 본 논문은 생물정보학, 데이터 마이닝, 화학정보학, 소프트웨어 엔지니어링 등 다양한 분야에 적용 가능한 ‘시퀀스 (Sequence) 컬렉션’을 위한 문서 검색 기술의 최근 연구 동향을 조사합니다.

Key Points

  • 기존 역색인 기반 문서 검색은 자연어 중심이며, 동아시아 언어 등 비자연어 시나리오에서 한계가 있음
  • 생물정보학, 웹 마이닝, 멀티미디어 검색 등 다양한 분야에 적용 가능한 시퀀스 기반 문서 검색 기술의 필요성 제기
  • Gonzalo Navarro 의 서베이 논문으로, 시퀀스 컬렉션에 대한 문서 검색 알고리즘의 최근 연구 동향 조사