위키백과 링크 의미소거를 위한 토픽 모델링
Source
Evernote/IFTTT Feedly/Topic Modeling for Wikipedia Link Disambiguation.md
Summary
Bradley Skaggs와 Lise Getoor는 위키백과에서 모호한 링크를 명확한 문서로 연결하는 ‘의미소거(disambiguation)’ 문제를 해결하기 위해 ‘링크 텍스트 토픽 모델(LTTM)‘을 제안했습니다. 이 연구는 링크 텍스트를 기반으로 한 통계적 토픽 모델을 사용하여 새로운 링크 타겟을 제안하며, 위키백과 편집 이력에서 추출한 정답 데이터(ground truth)를 통해 기존 링크 및 콘텐츠 기반 접근법보다 LTTM이 우수함을 입증했습니다.
Key Points
- 문제 정의: 위키백과 내 모호한 제목의 하이퍼링크를 명확한 문서 링크로 대체하는 의미소거 필요성
- 제안 방법: 링크 텍스트를 기반으로 한 새로운 통계적 토픽 모델인 LTTM(Link Text Topic Model) 제안
- 평가 방법: 특정 기간의 위키백과 편집 이력을 통해 의미소거 작업의 정답 데이터(ground truth) 추출
- 결과: 기존 링크 기반 및 콘텐츠 기반 접근법에 비해 LTTM의 성능 우위 입증
Related
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Beyond Text QA: Multimedia Answer Generation by Harvesting Web Information
-
Moment-Based Spectral Analysis of Large-Scale Networks Using Local Structural Information
-
Efficient Multiview Maintenance under Insertion in Huge Social Networks
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Information-Theoretic Outlier Detection for Large-Scale Categorical Data