웹 엔티티 페이지 발견을 위한 URL 및 HTML 특징 결합 방법 (SSUP)
Source
Evernote/Inbox/Combining URL and HTML Features for Entity Discovery in the Web.md
Summary
본 문서는 웹 상의 엔티티 페이지(특정 유형의 엔티티 데이터를 게시하는 페이지)를 발견하기 위한 새로운 방법인 SSUP(Semi-Supervised URL-Page)를 소개합니다. 기존 방법과 달리 URL 용어와 HTML 특징을 결합하며, URL 용어가 엔티티 페이지와 다른 페이지를 구별하는 능력에 따라 가중치를 다르게 부여하여 발견 효율성을 높이는 것이 핵심 혁신점입니다.
Key Points
- 엔티티 페이지(Entity-page)는 자동차 경주 드라이버 정보 등 특정 유형의 엔티티 데이터를 게시하는 웹 페이지를 의미하며, 보험사, 소매업, 검색엔진 등 데이터 기반 기업에 유용함.
- SSUP 방법론은 URL 특징과 HTML 특징을 결합하여 엔티티 페이지를 발견함.
- 핵심 차별점은 URL 용어의 구별 능력(discriminative capacity)에 따라 가중치를 동적으로 조정하여 엔티티 페이지 발견의 정확도와 효율성을 향상시킴.
- 출처: ACM Transactions on the Web (TWEB), 2019년 12월.