PhishStorm: 스트리밍 분석을 통한 피싱 탐지

Source

  • Evernote/Inbox/PhishStorm Detecting Phishing With Streaming Analytics.md

Summary

PhishStorm은 피싱 사이트의 짧은 수명 문제를 해결하기 위해 URL을 실시간으로 분석하는 자동화 피싱 탐지 시스템입니다. 이 시스템은 URL의 하위 도메인(등록된 부분)과 상위 도메인/경로/쿼리 간의 연관성이 피싱 URL에서는 낮다는 ‘Intra-URL Relatedness’ 개념을 기반으로 합니다. Google 및 Yahoo 검색 데이터에서 추출한 특징을 머신러닝 분류기에 적용하여, 96,018개의 URL 데이터셋에서 94.91%의 정확도와 1.44%의 오경보율(False Positive)을 달성했습니다. 또한 STORM과 같은 빅데이터 아키텍처 및 Bloom filter를 활용하여 실시간 분석이 가능하도록 구현되었습니다.

Key Points

  • 기존 반응형 URL 블랙리스트 방식의 비효율성(피싱 사이트의 짧은 수명)을 극복하기 위한 실시간/선제적 탐지 시스템 제안
  • 핵심 개념: ‘Intra-URL Relatedness’ - 피싱 URL은 등록된 도메인 부분과 나머지 URL 부분 간의 연관성이 낮음
  • 구현 방법: 검색 엔진 쿼리 데이터 기반 URL 단어 특징 추출 및 머신러닝 분류기 적용
  • 성능: 96,018개 URL 테스트에서 94.91% 정확도, 1.44% 오경보율 달성
  • 확장성: 99% 신뢰도를 가진 URL 피싱 점수 평가 시스템 제안 및 STORM/Bloom filter 기반 실시간 처리 아키텍처 논의