Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
Source
Evernote/Papers/Regularized Latent Semantic Indexing A New Approach to Large-Scale Topic Modeling.md
Summary
본 논문은 확장성 문제로 인해 실제 적용이 제한되는 토픽 모델링의 한계를 극복하기 위해 ‘정규화 잠재 의미 색인(RLSI)‘을 제안한다. 기존 병렬화 솔루션들이 입력 어휘를 대폭 줄이는 등 극단적인 조치가 필요한 것과 달리, RLSI는 배치(batch) 및 온라인(online) 버전을 통해 대규모 문서 집합에 효율적으로 적용할 수 있는 확장 가능한 토픽 모델링 방법을 제시한다.
Key Points
- 기존 토픽 모델링은 대규모 문서 집합 처리 시 확장성(scalability) 문제가 존재함
- 기존 병렬화 솔루션은 입력 어휘 축소 등 극단적인 단계를 요구하는 경우가 많음
- 새로운 방법론인 Regularized Latent Semantic Indexing (RLSI) 제안
- RLSI는 배치(batch) 버전과 온라인(online) 버전으로 구성됨
- 대규모 문서 집합에 대한 토픽 모델링의 확장성 향상 목표
Related
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation