DOM 구조 지식 기반 모델을 이용한 반구조화 웹 레코드 강건한 탐지

Source

  • Evernote/IFTTT Feedly/Robust detection of semi-structured web records using a DOM structure-knowledge-driven model.md

Summary

이 논문은 단일 웹페이지에서 유사한 객체 레코드(데이터)를 추출하는 문제를 다룹니다. 기존 DOM 트리 분석 방식이 전역적 관점(global view)이 부족하여 근시안적인 결정을 내리고, 무차별적 탐색으로 유연성과 강건성이 떨어진다는 한계를 지적합니다. 이를 해결하기 위해 다양한 종류의 데이터 레코드와 레코드 영역을 강건하게 탐지할 수 있는 ‘Structure-Knowledge-Oriented Global Analysis (Skoga)’ 프레임워크를 제안합니다.

Key Points

  • 웹 데이터 레코드 추출: 단일 페이지 내 규칙적 형식으로 배치된 유사 속성 레코드 추출
  • 기존 방법의 한계: DOM 트리 분석의 전역적 관점 부재, 근시안적 결정, 무차별 탐색으로 인한 유연성/강건성 저하
  • 제안 방법: Skoga (Structure-Knowledge-Oriented Global Analysis) 프레임워크
  • 주요 성과: 다양한 유형의 데이터 레코드 및 레코드 영역에 대한 강건한 탐지 가능