화자 추적 기반 영상 자막 배치 (Speaker-Following Video Subtitles)
Source
Evernote/Inbox/Speaker-Following Video Subtitles.md
Summary
기존 영상 자막은 화면 하단에 고정되어 시청자의 시선을 주요 콘텐츠에서 떼어내어 피로도를 유발한다. 본 연구는 오디오 및 시각적 정보를 결합한 알고리즘으로 화자를 식별하고, 전역 최적화(Global Optimization)를 통해 자막을 해당 화자 옆에 배치하는 방법을 제안한다. 이를 통해 시청자가 영상 내용을 놓치지 않고 자막을 읽을 수 있도록 시청 경험을 개선한다.
Key Points
- 문제점: 기존 하단 고정 자막은 시청 시선 이탈 및 눈 피로 유발
- 해결책: 화자 위치를 추적하여 자막을 화자 옆에 동적으로 배치
- 기술적 접근: 오디오/비주얼 기반 화자 식별 알고리즘 + 자막 배치를 위한 전역 최적화
- 출처: ACM TOMM (2015), Yongtao Hu 외
Related
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Near-duplicate video retrieval: Current research and future trends
-
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
A Framework for Network Aware Caching for Video on Demand Systems - Errata
-
지오태그 이미지로부터 장면 위치 식별 (Identification of scene locations from geotagged images)
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Robust and accurate mobile visual localization and its applications