K-RBMs를 이용한 다중 비선형 부분공간 학습
Source
Evernote/IFTTT Feedly/Learning Multiple Non-Linear Sub-Spaces using K-RBMs.md
Summary
이 논문은 자연 이미지 패치가 단일 분포가 아닌 다중 비선형 부분공간(non-linear subspaces)에 존재한다는 가설을 바탕으로, K-Restricted Boltzmann Machines(K-RBMs)을 사용하여 이러한 부분공간을 학습하는 프레임워크를 제안합니다. EM 알고리즘과 유사한 반복적 과정을 통해 입력 공간의 적절한 비선형 부분공간을 찾고 이미지 패치를 해당 공간에 연관시킴으로써 재구성 오차를 최소화합니다. 실험 결과, 이 프레임워크 기반의 표현은 SIFT 기반 Bag-of-Words 및 컨볼루션 심층 신념 네트워크(CDBN)보다 우수한 성능을 보였습니다.
Key Points
- 자연 이미지 데이터는 복잡한 분포를 가지며, 이미지 패치는 서로 다른 다중 비선형 부분공간에 위치한다고 가정
- K-Restricted Boltzmann Machines(K-RBMs)을 활용하여 원시 이미지 공간에서 다중 비선형 부분공간 학습
- EM 알고리즘과 유사한 반복적 최적화를 통해 부분공간 발견 및 패치 연관성 부여, 재구성 오차 최소화
- 기존 SIFT Bag-of-Words 및 컨볼루션 심층 신념 네트워크 대비 이미지 분류 데이터셋에서 우수한 성능 입증
Related
-
Efficient Estimation of Word Representations in Vector Space
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
Point Representation for Local Optimization: Towards Multi-Dimensional Gray Codes
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Neighborhood Preserving Codes for Assigning Point Labels: Applications to Stochastic Search
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine (Technical Supplement)
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Structured Streaming Skeleton (SSS): 온라인 인간 제스처 인식용 새로운 특징 추출 방법
-
Enlisting the Ghost: Modeling Empty Categories for Machine Translation
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation