화자 추적 기반 영상 자막 배치 (Speaker-Following Video Subtitles)

Source

Evernote/Inbox/Speaker-Following Video Subtitles.md

Summary

기존 영상 자막은 화면 하단에 고정되어 시청자의 시선을 주요 콘텐츠에서 떼어내어 피로도를 유발한다. 본 연구는 오디오 및 시각적 정보를 결합한 알고리즘으로 화자를 식별하고, 전역 최적화(Global Optimization)를 통해 자막을 해당 화자 옆에 배치하는 방법을 제안한다. 이를 통해 시청자가 영상 내용을 놓치지 않고 자막을 읽을 수 있도록 시청 경험을 개선한다.

Key Points

문제점: 기존 하단 고정 자막은 시청 시선 이탈 및 눈 피로 유발
해결책: 화자 위치를 추적하여 자막을 화자 옆에 동적으로 배치
기술적 접근: 오디오/비주얼 기반 화자 식별 알고리즘 + 자막 배치를 위한 전역 최적화
출처: ACM TOMM (2015), Yongtao Hu 외

다중 사용자 생성 영상 기반 미적 가이드 요약 (Aesthetics-Guided Summarization)
YouTube 영화 리뷰의 오디오-비주얼 맥락 기반 감정 분석
A Top-Down Approach for Video Summarization
움직이며 소리를 내는 객체의 식별 및 분할을 위한 다중모달 분석
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
스크롤 후 고정 콘텐츠 (Scroll-Then-Fix Content)
Near-duplicate video retrieval: Current research and future trends
적응형 스트리밍 표현의 최적 선택
다중 Kinect 기반 실시간 3D 재구성
Script-to-Movie: 스크립트 기반 자동 영화 생성 프레임워크
웹 기반 분산 콘텐츠 큐레이션 연구
360도 영상 시청자 시선 분석
다중 모드 특징 표현 및 시간 피라미드 매칭을 통한 콘텐츠 기반 복제 탐지
Video Resumer: YouTube 시청 위치 기억 확장 프로그램
감정 콘텐츠 기반 적응형 스트리밍 최적화 (ACAA)
SafeVchat: 온라인 영상 채팅 서비스의 음란 콘텐츠 탐지 시스템
TRECVID 기반 콘텐츠 기반 비디오 복사 탐지 벤치마킹
Video Snippets
게임용 절차적 콘텐츠 생성(PCG-G) 개요
다중 특징 분석 및 시맨틱 컨텍스트 학습을 통한 이미지 분류
CPCDN: Context 및 User Intelligence 기반 콘텐츠 전달
iVector-based Acoustic Data Selection
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
Content vs. Context: Video Landmark Retrieval
Discriminative Segment Annotation in Weakly Labeled Video
YouTube 영상 음향 분석을 통한 유망 음악가 자동 발견
Attribute-Augmented Semantic Hierarchy (A2SH) for CBIR
Double Music Player: 두 개의 이어폰에 다른 음악 재생
Spatiotemporal Deformable Part Models for Action Detection
비디오 스트림에서 음향 및 시각적 단서를 이용한 광고 탐지
음악 플레이리스트 자동 생성: 서베이 및 실험
음악 컨텍스트 데이터 기반 음악 유사도 및 추천 방법론 조사
K-RBMs를 이용한 다중 비선형 부분공간 학습
온라인 비디오 서비스의 가짜 조회수 분석 및 탐지
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
오디오의 역할
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
영화 ‘비긴 어게인’에서 도출한 콘텐츠 성공 공식
Cross-Media Tag Transfer (CMTT): 이미지에서 비디오로 태그 지식 이전
비디오 디스커버리 서비스의 한계와 표준화 플랫폼의 가능성
시간적 이미지 시퀀스를 위한 최적화된 만화 스토리텔링 시스템
온라인 정확한 문자열 매칭 문제: 최근 결과 리뷰
Cross-Domain Feature Learning in Multimedia
Supervised Robust Discrete Multimodal Hashing (SRDMH)
YouTube 채널 분류를 위한 실용적 시스템
All Smiles: 얼굴 표정 분석을 통한 자동 사진 보정
Sparse Hashing (SH) for Fast Multimedia Search
실내 장면의 의미적 및 기하학적 상호작용 학습을 위한 판별 모델
이미지 기반 추천 시스템에서의 정서적 라벨링 (Affective Labeling)
3D 객체 검색을 위한 시맨틱 시그니처 학습
Interactive Image Tagging을 위한 인간 라벨링 최적화
Twitter 기반 YouTube 동영상 추천: 시간 인식 및 개인화
A Framework for Network Aware Caching for Video on Demand Systems - Errata
넷플릭스: 편의성이 오리지널 콘텐츠보다 주요 동인 (2013)
정보 기하학을 통한 순수 고차 단어 연관성 마이닝
Query-Adaptive Image Search With Hash Codes
Transfer Joint Embedding for Cross-Domain NER
온라인 비디오 전달: 과거, 현재, 미래
대규모 다중 라벨 전파를 위한 효율적인 희소 그래프 구성
마크애니, 자동 콘텐츠 인식(ACR) 솔루션 ‘미디어플러스’ 출시
YouTube, Google+ 기반 새 댓글 시스템 발표 (2013)
지오태그 이미지로부터 장면 위치 식별 (Identification of scene locations from geotagged images)
Efficient Closed-Form Solution to Generalized Boundary Detection
다중 채널 오디오 압축을 위한 레이트-디스토션 최적화
대규모 저장소에서의 효율적인 비디오 스트림 모니터링 및 유사 중복 탐지
사용자 생성 콘텐츠의 순위 기반 메커니즘에 대한 게임 이론적 분석
인터넷 TV를 위한 콘텐츠 및 사회적 관련성 기반 개인화 광고 추천
소셜 기반 멀티미디어 콘텐츠 분산 프레임워크
토론토대 연구진의 실시간 HDR 비디오 기술 (2013)
비디오 스트리밍 혁명: 기술적 진화와 OTT의 부상
인간 동작 분석을 위한 특이값 분해(SVD) 기반 지식 획득 방법
3음만으로 음악을 식별하는 알고리즘 개발
PhishStorm: 스트리밍 분석을 통한 피싱 탐지
URL 기반 웹 페이지 언어 분류 기술 종합 연구
Nowcasting with Google Trends
개인 사진 컬렉션에서의 공동 노이즈 레벨 추정
이미지 주석 및 검색을 위한 Feature-Word-Topic 모델
유전 알고리즘(GP)을 활용한 햅틱 기반 서명 인증
실시간 트윗 검색을 위한 블룸 필터 체인(Bloom Filter Chains) 기반 후보 생성
Weavly: Tumblr GIF 및 YouTube 영상 매시업 도구
Fan TV: IPTV 기반 통합 스트리밍 셋톱박스
스케치 기반 비디오 클립 상호작용 조직화 접근법
Coordinated Multi-Device Presentations: Ambient-Audio Identification
PRIME: 단입자 Cryo-EM을 위한 확률적 초기 3D 모델 생성
사이버-물리 시스템(CPS) 침입 탐지 기술 조사
MOWL: 웹 기반 멀티미디어 애플리케이션을 위한 온톨로지 표현 언어
DOM 구조 지식 기반 모델을 이용한 반구조화 웹 레코드 강건한 탐지
NDC2017: VAE를 이용한 게임 콘텐츠 생성 기법 연구 사례
단일 데이터 포인트로부터 도달률 곡선 추정
스페인어 온라인 비디오의 다중모달 감정 분석
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
이공계적 사고로 분유통 이물질(개구리) 탐지 방법 고찰
고양이 사진 메타데이터를 통한 위치 추적 프로젝트
Online allocation of display ads with smooth delivery
온라인 건강 검색의 콘텐츠 편향성
Robust and accurate mobile visual localization and its applications
라이브 콘서트 부트레깅의 기술적 변화와 공식 서비스의 등장
강화학습 기반 음악 추천 시스템의 탐색-활용 균형

AncomWiki

탐색기

화자 추적 기반 영상 자막 배치 (Speaker-Following Video Subtitles)

화자 추적 기반 영상 자막 배치 (Speaker-Following Video Subtitles)

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

화자 추적 기반 영상 자막 배치 (Speaker-Following Video Subtitles)

화자 추적 기반 영상 자막 배치 (Speaker-Following Video Subtitles)

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크