Weakly Supervised Learning of Object Segmentations from Web-Scale Video

Source

  • Evernote/Papers/Weakly Supervised Learning of Object Segmentations from Web-Scale Video.md

Summary

이 논문은 사전 학습된 객체 탐지기를 사용하지 않고, 노이즈가 있을 수 있는 태그가 붙은 대규모 YouTube 영상(약 20,000개)을 통해 객체의 픽셀 레벨 분할(segmentation)을 학습하는 방법을 제안합니다. 공간-시간적 세그먼트에 대한 약하게 지도된 분류기를 학습하여 객체 시드를 추출한 후, Graphcuts를 통해 정밀한 객체 마스크를 생성합니다. 50,000 프레임의 ground truth 데이터셋으로 평가한 결과, 웹 스케일 영상만으로도 양질의 객체 마스크를 자동으로 추출할 수 있음을 확인했습니다.

Key Points

  • 사전 학습된 객체 탐지기 없이 약한 라벨(태그)만으로 픽셀 레벨 객체 분할 학습
  • 공간-시간적 세그먼트 기반 분류기 학습 및 Graphcuts 기반 마스크 정제
  • 20,000개 YouTube 영상(15 클래스) 학습 및 50,000 프레임 ground truth로 검증
  • 웹 스케일 영상 데이터만으로도 자동 객체 마스크 추출 가능함 입증