Cluster Forests (CF)

Source

  • Evernote/IFTTT Feedly/Cluster forest.md

Summary

구글 연구진이 제안한 클러스터링 앙상블 방법인 Cluster Forests(CF)는 랜덤 포레스트의 아이디어를 차용하여 고차원 데이터에서 ‘좋은 로컬 클러스터링’을 탐색하고 스펙트럼 클러스터링으로 통합합니다. 클러스터 품질 지표인 kappa를 통해 노이즈에 강건한 방식으로 로컬 클러스터링을 점진적으로 개선하며, 여러 실세계 데이터셋에서 기존 방법 대비 우수한 성능을 보였습니다.

Key Points

  • 랜덤 포레스트에서 영감을 받은 클러스터링 앙상블 기법
  • 고차원 데이터의 로컬 클러스터링 탐색 후 스펙트럼 클러스터링으로 통합
  • 품질 지표 kappa를 활용한 노이즈 저항성(local clustering growth) 보장
  • 스펙트럼 클러스터링의 오분류율에 대한 이론적 분석 및 폐쇄형 표현 도출