Effective and Robust Query-Based Stemming
Source
Evernote/IFTTT Feedly/Effective and Robust Query-Based Stemming.md
Summary
이 논문은 정보 검색 시스템에서 형태소 변이로 인한 어휘 불일치 문제를 해결하기 위한 ‘쿼리 기반 스템밍(Query-Based Stemming)’ 알고리즘을 제안한다. 기존 스템머가 쿼리의 주제적 일관성(thematic coherence)을 고려하지 않아 성능 저하를 초래하는 단점을 지적하며, 이를 해결하기 위해 코퍼스 기반의 완전 자동화 알고리즘을 제시한다. 6 개의 TREC 컬렉션 및 3 개의 비영어권 컬렉션에 대한 실험 결과, 제안된 알고리즘이 기존 4 가지 최첨단 스템머보다 일관성 있게 우수한 성능을 보임을 입증한다.
Key Points
- 기존 스템머의 한계: 쿼리 단어의 형태소 변이를 무조건 수용하여 주제적 일관성을 해치고, 경우에 따라 스템밍을 적용하지 않은 경우보다 성능이 떨어지는 문제점 지적.
- 제안 방법: 쿼리의 주제적 일관성을 고려한 코퍼스 기반 완전 자동화 스템밍 알고리즘 개발.
- 실험 결과: TREC 및 비영어권 뉴스/웹 문서 컬렉션에서 기존 최첨단 스템머 대비 일관적이고 유의미한 성능 향상 입증.
Related
-
Patent Query Formulation by Synthesizing Multiple Sources of Relevance Evidence
-
A term-based inverted index partitioning model for efficient distributed query processing
-
Supporting Flexible, Efficient, and User-Interpretable Retrieval of Similar Time Series
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Efficient Estimation of Word Representations in Vector Space
-
Structured Streaming Skeleton (SSS): 온라인 인간 제스처 인식용 새로운 특징 추출 방법
-
Beyond Text QA: Multimedia Answer Generation by Harvesting Web Information
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
An Unsupervised Feature Selection Framework for Social Media Data
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
λ-Diverse Nearest Neighbors Browsing for Multidimensional Data
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees