웹 엔티티 발견을 위한 병렬 경로 프레임워크 (The Parallel Path Framework)

Source

  • Evernote/IFTTT Feedly/The parallel path framework for entity discovery on the web.md

Summary

이 문서는 웹의 비정형 데이터와 데이터베이스의 정형 스키마 간 불일치를 해소하기 위한 연구 논문을 소개합니다. Tim Weninger 외 연구진은 웹의 구조적·관계적 정보를 활용하여 (1) 웹 목록 추출, (2) 엔티티 페이지 발견, (3) 데이터베이스 매핑, (4) 엔티티 속성 추출의 4단계 과정을 수행하는 프레임워크를 제안합니다. 이를 통해 도메인 간 정보 비교 및 집계를 용이하게 하는 것을 목표로 합니다.

Key Points

  • 웹의 비정형성과 DB의 정형 스키마 간 격차 해소 시도
  • 웹 구조 및 관계 정보 기반의 4단계 엔티티 발견 파이프라인 제안
  • 도메인 간 정보 비교 및 집계 용이성 증대