정보 기하학을 통한 순수 고차 단어 연관성 마이닝
Source
Evernote/IFTTT Feedly/Mining pure high-order word associations via information geometry for information retrieval.md
Summary
기존의 Bag-of-Word 모델이 단어 간 문맥적 연관성을 포착하지 못하는 한계를 극복하기 위해, 분리 불가능한 의미적 실체를 형성하는 단어들의 ‘순수 고차 의존성(pure high-order dependence)‘을 연구합니다. 무조건적 순수 의존성(UPD)과 조건부 순수 의존성(CPD)을 정의하고, 정보 기하학(Information Geometry) 프레임워크 내에서 이를 식별하기 위한 충분 조건을 유도하여 NP-hard 문제를 해결 가능한 절차로 만듭니다. 이를 통해 문서 표현과 검색 모델의 성능을 향상시키는 것을 목표로 합니다.
Key Points
- 기존 Bag-of-Word 모델의 문맥 연관성 포착 실패 문제 제기
- 단어들의 순수 고차 의존성(순수한 의미적 결합)을 통한 문서 표현 개선
- 무조건적(UPD) 및 조건부(CPD) 순수 의존성의 형식적 정의
- 정보 기하학(IG) 프레임워크를 활용한 UPD/CPD 식별의 충분 조건 유도
- NP-hard인 의존성 판정 문제를 해결 가능한 절차로 변환
Related
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
-
Patent Query Formulation by Synthesizing Multiple Sources of Relevance Evidence
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
A term-based inverted index partitioning model for efficient distributed query processing
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Beyond Text QA: Multimedia Answer Generation by Harvesting Web Information