Weakly Supervised Learning of Object Segmentations from Web-Scale Video
Source
Evernote/Papers/Weakly Supervised Learning of Object Segmentations from Web-Scale Video.md
Summary
이 논문은 사전 학습된 객체 탐지기를 사용하지 않고, 노이즈가 있을 수 있는 태그가 붙은 대규모 YouTube 영상(약 20,000개)을 통해 객체의 픽셀 레벨 분할(segmentation)을 학습하는 방법을 제안합니다. 공간-시간적 세그먼트에 대한 약하게 지도된 분류기를 학습하여 객체 시드를 추출한 후, Graphcuts를 통해 정밀한 객체 마스크를 생성합니다. 50,000 프레임의 ground truth 데이터셋으로 평가한 결과, 웹 스케일 영상만으로도 양질의 객체 마스크를 자동으로 추출할 수 있음을 확인했습니다.
Key Points
- 사전 학습된 객체 탐지기 없이 약한 라벨(태그)만으로 픽셀 레벨 객체 분할 학습
- 공간-시간적 세그먼트 기반 분류기 학습 및 Graphcuts 기반 마스크 정제
- 20,000개 YouTube 영상(15 클래스) 학습 및 50,000 프레임 ground truth로 검증
- 웹 스케일 영상 데이터만으로도 자동 객체 마스크 추출 가능함 입증
Related
-
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine (Technical Supplement)
-
Nonlinear Latent Factorization by Embedding Multiple User Interests
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Stock Selection Model Based on Machine Learning with Wisdom of Experts and Crowds
-
웹 데이터베이스 검색 결과 자동 주석 처리 (Automatic Annotation of Web Database Search Results)
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Point Representation for Local Optimization: Towards Multi-Dimensional Gray Codes
-
Efficient Estimation of Word Representations in Vector Space
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Neighborhood Preserving Codes for Assigning Point Labels: Applications to Stochastic Search
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Structured Streaming Skeleton (SSS): 온라인 인간 제스처 인식용 새로운 특징 추출 방법
-
지오태그 이미지로부터 장면 위치 식별 (Identification of scene locations from geotagged images)
-
Near-duplicate video retrieval: Current research and future trends
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Learning Semantic Representations Of Objects And Their Parts
-
Semantic content-based recommendation of software services using context