A Top-Down Approach for Video Summarization
Source
Evernote/Inbox/A Top-Down Approach for Video Summarization.md
Summary
본 논문은 기존 영상 요약 방법이 전역 또는 지역 관점에서 중요 프레임을 식별하는 것과 달리, ‘장면 식별’과 ‘장면 요약’으로 구성된 상향식(Top-Down) 접근법을 제안합니다. 장면 식별은 전역 특징과 확장 가능한 클러스터링을 사용하며, 장면 요약은 최소 중복으로 지역 설명자를 가장 잘 커버하는 프레임을 선택하는 문제로 공식화합니다. 또한 계산 확장성을 위해 시각 단어 기반 접근법을 개발했으며, 두 벤치마크 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 보였습니다.
Key Points
- 기존 방법(전역/지역 관점)과 차별화된 ‘장면 식별’ 및 ‘장면 요약’의 2단계 상향식 접근법 제안
- 장면 식별: 전역 특징 기반 프레임 표현 및 확장 가능한 클러스터링 활용
- 장면 요약: 최소 중복으로 지역 설명자(Local Descriptors)를 최대화하여 커버하는 프레임 선택
- 시각 단어(Visual Word) 기반 접근법을 통한 계산 확장성(Computational Scalability) 개선
- 두 벤치마크 데이터셋에서 State-of-the-Art 대비 성능 우위 입증
Related
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
A Model-Based Approach for Crawling Rich Internet Applications
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Efficient Estimation of Word Representations in Vector Space
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Near-duplicate video retrieval: Current research and future trends
-
Point Representation for Local Optimization: Towards Multi-Dimensional Gray Codes
-
Neighborhood Preserving Codes for Assigning Point Labels: Applications to Stochastic Search
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine (Technical Supplement)
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
Structured Streaming Skeleton (SSS): 온라인 인간 제스처 인식용 새로운 특징 추출 방법
-
지오태그 이미지로부터 장면 위치 식별 (Identification of scene locations from geotagged images)
-
Enlisting the Ghost: Modeling Empty Categories for Machine Translation