A Model-Based Approach for Crawling Rich Internet Applications

Source

  • Evernote/IFTTT Feedly/A Model-Based Approach for Crawling Rich Internet Applications.md

Summary

AJAX 기반의 리치 인터넷 애플리케이션(RIA)은 기존 크롤링 기술로는 탐색이 어렵습니다. 본 논문은 RIA의 검색 및 테스트를 위해 ‘모델 기반 크롤링(model-based crawling)’ 방법론을 제안합니다. 이를 ‘하이퍼큐브 전략(hypercube strategy)‘으로 구현하여, 기존 너비 우선, 깊이 우선, 탐욕적 전략과 성능을 비교 평가했습니다.

Key Points

  • AJAX 등 신기술로 인한 RIA의 기존 크롤링 기술 한계 지적
  • RIA 탐색을 위한 ‘모델 기반 크롤링’ 방법론 제안
  • 구체적 구현 예시인 ‘하이퍼큐브 전략’ 제시
  • 기존 표준 크롤링 전략(BFS, DFS, Greedy)과의 성능 비교