Information-Theoretic Outlier Detection for Large-Scale Categorical Data
Source
Evernote/Papers/Information-Theoretic Outlier Detection for Large-Scale Categorical Data.md
Summary
대규모 범주형 데이터의 이상치 탐지를 위한 정보이론적 접근법입니다. 기존 범주형 데이터의 유사도 측정 어려움을 해결하기 위해 ‘holoentropy(전체 엔트로피와 총 상관관계를 고려)’ 개념을 도입하여 이상치 정의를 공식화했습니다. 객체 자체만으로 결정되며 효율적으로 업데이트 가능한 이상치 점수 함수를 정의하고, 사용자 정의 파라미터 없이 탐지할 이상치 개수만 입력하면 되는 ITB-SS 및 ITB-SP 알고리즘을 제안했습니다. 실험 결과, 기존 알고리즘이 실패하는 대규모 및 고차원 데이터셋에서 주류 방법보다 효과적이고 효율적인 것으로 나타났습니다.
Key Points
- 범주형 데이터의 이상치 탐지를 위해 holoentropy(엔트로피 + 총 상관관계) 기반의 최적화 모델 제안
- 객체 자체에 의해 결정되며 효율적 업데이트가 가능한 이상치 점수(outlier factor) 함수 정의
- 사용자가 탐지할 이상치 개수만 지정하면 되는 파라미터 최소화 알고리즘 ITB-SS 및 ITB-SP 제안
- 대규모 및 고차원 범주형 데이터셋에서 기존 알고리즘 대비 우수한 성능과 효율성 입증
Related
-
Moment-Based Spectral Analysis of Large-Scale Networks Using Local Structural Information
-
Anomaly Extraction in Backbone Networks Using Association Rules
-
λ-Diverse Nearest Neighbors Browsing for Multidimensional Data
-
Protecting Sensitive Labels in Social Network Data Anonymization
-
An Unsupervised Feature Selection Framework for Social Media Data
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling
-
Efficient Multiview Maintenance under Insertion in Huge Social Networks
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
동적 스타 네트워크에서 다중 유형 객체의 공진화 (Co-Evolution of Multi-Typed Objects in Dynamic Star Networks)
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features