화자 추적 기반 영상 자막 배치 (Speaker-Following Video Subtitles)

Source

  • Evernote/Inbox/Speaker-Following Video Subtitles.md

Summary

기존 영상 자막은 화면 하단에 고정되어 시청자의 시선을 주요 콘텐츠에서 떼어내어 피로도를 유발한다. 본 연구는 오디오 및 시각적 정보를 결합한 알고리즘으로 화자를 식별하고, 전역 최적화(Global Optimization)를 통해 자막을 해당 화자 옆에 배치하는 방법을 제안한다. 이를 통해 시청자가 영상 내용을 놓치지 않고 자막을 읽을 수 있도록 시청 경험을 개선한다.

Key Points

  • 문제점: 기존 하단 고정 자막은 시청 시선 이탈 및 눈 피로 유발
  • 해결책: 화자 위치를 추적하여 자막을 화자 옆에 동적으로 배치
  • 기술적 접근: 오디오/비주얼 기반 화자 식별 알고리즘 + 자막 배치를 위한 전역 최적화
  • 출처: ACM TOMM (2015), Yongtao Hu 외