Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법

Source

  • Evernote/Papers/Regularized Latent Semantic Indexing A New Approach to Large-Scale Topic Modeling.md

Summary

본 논문은 확장성 문제로 인해 실제 적용이 제한되는 토픽 모델링의 한계를 극복하기 위해 ‘정규화 잠재 의미 색인(RLSI)‘을 제안한다. 기존 병렬화 솔루션들이 입력 어휘를 대폭 줄이는 등 극단적인 조치가 필요한 것과 달리, RLSI는 배치(batch) 및 온라인(online) 버전을 통해 대규모 문서 집합에 효율적으로 적용할 수 있는 확장 가능한 토픽 모델링 방법을 제시한다.

Key Points

  • 기존 토픽 모델링은 대규모 문서 집합 처리 시 확장성(scalability) 문제가 존재함
  • 기존 병렬화 솔루션은 입력 어휘 축소 등 극단적인 단계를 요구하는 경우가 많음
  • 새로운 방법론인 Regularized Latent Semantic Indexing (RLSI) 제안
  • RLSI는 배치(batch) 버전과 온라인(online) 버전으로 구성됨
  • 대규모 문서 집합에 대한 토픽 모델링의 확장성 향상 목표