위키백과 반달리즘 탐지를 위한 크로스-러닝 (봇 vs 사용자)
Source
Evernote/Inbox/Cross-Language Learning from Bots and Users to Detect Vandalism on Wikipedia.md
Summary
이 논문은 위키백과에서 발생하는 반달리즘(악의적 수정) 탐지를 위해 봇과 사용자의 기여를 비교 분석하는 새로운 텍스트 특징(feature)을 제안합니다. 5개 언어의 5억 건 이상 수정 이력을 대상으로 한 실험 결과, 적절한 텍스트 특징을 사용하면 단일 언어 학습으로도 다른 언어의 반달리즘 탐지에 효과적인 봇을 구축할 수 있음을 보였습니다. 이는 기존 소규모 데이터셋(PAN)과 달리 대규모 실제 데이터에서 검증되었으며, 다국어 환경에서 작동하는 차세대 ML 기반 반달리즘 탐지 봇 개발을 목표로 합니다.
Key Points
- 반달리즘 탐지를 위해 봇과 사용자의 기여 차이를 포착하는 언어 불변의 텍스트 특징 제안
- 5개 언어, 500만 개 이상의 문서, 5억 건 이상의 수정 이력을 활용한 대규모 평가 수행
- 단일 언어 학습으로도 다른 언어의 반달리즘 탐지에 효과적인 크로스-러닝 가능성 입증
- 기존 소규모 연구용 데이터셋(PAN)과 실제 위키백과 전체 데이터셋 간 성능 차이 분석
- 다국어 환경에서 작동하는 머신러닝 기반 차세대 반달리즘 탐지 봇 개발을 최종 목표
Related
-
웹 페이지의 시각적 복잡성 측정 (Measuring the Visual Complexities of Web Pages)
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling
-
사회적·공간적 근접성을 활용한 공동 검색 (Joint Search by Social and Spatial Proximity)
-
When Amazon Meets Google: Product Visualization by Exploring Multiple Web Sources
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
A Prediction-Based User Selection Framework for Heterogeneous Mobile CrowdSensing