Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring

Source

  • Evernote/Papers/Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring.md

Summary

본 논문은 비지도 오디오비주얼 문서 구조화를 위한 새로운 패러다임을 제시한다. 특징의 백(bag of features) 표현인 히스토그램 카운트에 대해 Kullback-Leibler 발산을 비용 함수로 사용하고 활성화에 시간적 매끄러움(temporal smoothness) 제약을 가한 새로운 비음수 행렬 분해(NMF) 알고리즘을 제안한다. 이 방법은 시간적으로 겹치는 구조 패턴을 발견하는 데 적합하며, 정치 토론 영상 데이터베이스를 사용하여 시각 및 오디오 모달리티 기반의 화자 구조화 작업에서 은닉 마르코프 모델(HMM) 기반 방법보다 우수한 성능을 보였다. 또한 오디오 화자 diarization 에 대한 잠재력을 입증했다.

Key Points

  • 비지도 오디오비주얼 문서 구조화를 위한 새로운 NMF 알고리즘 제안
  • 비용 함수로 KL 발산 사용, 활성화에 시간적 매끄러움 제약 적용
  • Majorization-minimization 기법으로 해결
  • 시간적으로 겹치는 구조 패턴 발견에 적합
  • 정치 토론 영상 데이터베이스에서 시각/오디오 화자 구조화 평가
  • 기존 HMM 기반 방법 대비 성능 우위 입증
  • 오디오 화자 diarization 적용 가능성 제시