Information-Theoretic Outlier Detection for Large-Scale Categorical Data

Source

  • Evernote/Papers/Information-Theoretic Outlier Detection for Large-Scale Categorical Data.md

Summary

대규모 범주형 데이터의 이상치 탐지를 위한 정보이론적 접근법입니다. 기존 범주형 데이터의 유사도 측정 어려움을 해결하기 위해 ‘holoentropy(전체 엔트로피와 총 상관관계를 고려)’ 개념을 도입하여 이상치 정의를 공식화했습니다. 객체 자체만으로 결정되며 효율적으로 업데이트 가능한 이상치 점수 함수를 정의하고, 사용자 정의 파라미터 없이 탐지할 이상치 개수만 입력하면 되는 ITB-SS 및 ITB-SP 알고리즘을 제안했습니다. 실험 결과, 기존 알고리즘이 실패하는 대규모 및 고차원 데이터셋에서 주류 방법보다 효과적이고 효율적인 것으로 나타났습니다.

Key Points

  • 범주형 데이터의 이상치 탐지를 위해 holoentropy(엔트로피 + 총 상관관계) 기반의 최적화 모델 제안
  • 객체 자체에 의해 결정되며 효율적 업데이트가 가능한 이상치 점수(outlier factor) 함수 정의
  • 사용자가 탐지할 이상치 개수만 지정하면 되는 파라미터 최소화 알고리즘 ITB-SS 및 ITB-SP 제안
  • 대규모 및 고차원 범주형 데이터셋에서 기존 알고리즘 대비 우수한 성능과 효율성 입증