Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
Source
Evernote/Papers/Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring.md
Summary
본 논문은 비지도 오디오비주얼 문서 구조화를 위한 새로운 패러다임을 제시한다. 특징의 백(bag of features) 표현인 히스토그램 카운트에 대해 Kullback-Leibler 발산을 비용 함수로 사용하고 활성화에 시간적 매끄러움(temporal smoothness) 제약을 가한 새로운 비음수 행렬 분해(NMF) 알고리즘을 제안한다. 이 방법은 시간적으로 겹치는 구조 패턴을 발견하는 데 적합하며, 정치 토론 영상 데이터베이스를 사용하여 시각 및 오디오 모달리티 기반의 화자 구조화 작업에서 은닉 마르코프 모델(HMM) 기반 방법보다 우수한 성능을 보였다. 또한 오디오 화자 diarization 에 대한 잠재력을 입증했다.
Key Points
- 비지도 오디오비주얼 문서 구조화를 위한 새로운 NMF 알고리즘 제안
- 비용 함수로 KL 발산 사용, 활성화에 시간적 매끄러움 제약 적용
- Majorization-minimization 기법으로 해결
- 시간적으로 겹치는 구조 패턴 발견에 적합
- 정치 토론 영상 데이터베이스에서 시각/오디오 화자 구조화 평가
- 기존 HMM 기반 방법 대비 성능 우위 입증
- 오디오 화자 diarization 적용 가능성 제시
Related
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Nonlinear Latent Factorization by Embedding Multiple User Interests
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Point Representation for Local Optimization: Towards Multi-Dimensional Gray Codes
-
Efficient Estimation of Word Representations in Vector Space
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
Neighborhood Preserving Codes for Assigning Point Labels: Applications to Stochastic Search
-
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine (Technical Supplement)
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling
-
An Unsupervised Feature Selection Framework for Social Media Data