Effective and Robust Query-Based Stemming

Source

  • Evernote/IFTTT Feedly/Effective and Robust Query-Based Stemming.md

Summary

이 논문은 정보 검색 시스템에서 형태소 변이로 인한 어휘 불일치 문제를 해결하기 위한 ‘쿼리 기반 스템밍(Query-Based Stemming)’ 알고리즘을 제안한다. 기존 스템머가 쿼리의 주제적 일관성(thematic coherence)을 고려하지 않아 성능 저하를 초래하는 단점을 지적하며, 이를 해결하기 위해 코퍼스 기반의 완전 자동화 알고리즘을 제시한다. 6 개의 TREC 컬렉션 및 3 개의 비영어권 컬렉션에 대한 실험 결과, 제안된 알고리즘이 기존 4 가지 최첨단 스템머보다 일관성 있게 우수한 성능을 보임을 입증한다.

Key Points

  • 기존 스템머의 한계: 쿼리 단어의 형태소 변이를 무조건 수용하여 주제적 일관성을 해치고, 경우에 따라 스템밍을 적용하지 않은 경우보다 성능이 떨어지는 문제점 지적.
  • 제안 방법: 쿼리의 주제적 일관성을 고려한 코퍼스 기반 완전 자동화 스템밍 알고리즘 개발.
  • 실험 결과: TREC 및 비영어권 뉴스/웹 문서 컬렉션에서 기존 최첨단 스템머 대비 일관적이고 유의미한 성능 향상 입증.