대규모 그래프 및 라벨 세트에서의 효율적이고 정확한 라벨 전파
Source
Evernote/Inbox/Efficient and Accurate Label Propagation on Large Graphs and Label Sets.md
Summary
이 논문은 웹 기반 애플리케이션(검색, 추천, 광고 등)에서 희소하고 노이즈가 있는 라벨로부터 라벨 분포를 추론하는 문제를 다룹니다. 기존 Adsorption 알고리즘은 각 전파 단계 사이에 노드별 라벨 벡터의 재정규화(interleaved normalization)를 수행하여 모든 라벨 분포를 동기화해야 했고, 이는 표준 선형대수 방법(BiCGStab 등)의 사용을 방해했습니다. 본 연구는 재정규화를 전파 시작 전의 단일 사전 정규화(pre-normalization)로 대체하여, 선택적 라벨 계산(label slicing)과 대규모 행렬 해법(BiCGStab)을 사용할 수 있도록 개선했습니다. 이를 통해 더 큰 그래프와 라벨 세트를 처리할 수 있으며, 더 적은 전파 단계로 더 정확한 해를 얻을 수 있음을 웹 도메인 토픽 라벨링 실험을 통해 입증했습니다.
Key Points
- 기존 Adsorption 알고리즘의 단계별 재정규화(interleaved normalization)는 계산 병목과 선형대수 기법 적용을 제한함
- 단계별 재정규화를 전파 시작 전의 단일 사전 정규화(pre-normalization)로 대체하여 알고리즘 효율성 개선
- 개선된 방법은 선택적 라벨 계산(label slicing)과 안정화된 쌍접합 그라디언트 하강법(BiCGStab) 등 대규모 행렬 해법 사용 가능
- 더 큰 규모의 그래프와 라벨 세트를 처리하며, 기존 방법보다 적은 단계로 더 정확한 라벨 분포 추론 가능
- 웹 도메인 토픽 라벨링 실험을 통해 개선된 Adsorption 알고리즘의 유효성 검증
Related
-
웹 데이터베이스 검색 결과 자동 주석 처리 (Automatic Annotation of Web Database Search Results)
-
An Unsupervised Feature Selection Framework for Social Media Data
-
Protecting Sensitive Labels in Social Network Data Anonymization
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Enlisting the Ghost: Modeling Empty Categories for Machine Translation
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling
-
Moment-Based Spectral Analysis of Large-Scale Networks Using Local Structural Information
-
When Amazon Meets Google: Product Visualization by Exploring Multiple Web Sources
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Information-Theoretic Outlier Detection for Large-Scale Categorical Data
-
Improved Domain Adaptation for Statistical Machine Translation