Biperpedia: 검색 애플리케이션을 위한 온톨로지

Source

  • Evernote/Inbox/Biperpedia An Ontology for Search Applications.md

Summary

구글 연구팀이 제안한 Biperpedia는 검색 쿼리 스트림과 텍스트에서 속성(Attribute)을 추출하여 구축한 온톨로지입니다. 기존 Freebase 등 구조화 데이터베이스가 모델링하는 속성 수가 제한적인 문제를 해결하기 위해, 160만 개의 (클래스, 속성) 쌍과 6만 7천 개의 고유 속성 이름을 포함합니다. 각 속성에 동의어와 텍스트 패턴을 저장하여 다양한 문맥에서 속성을 인식할 수 있게 하며, 이를 통해 웹 테이블의 의미 복원 능력을 Freebase 대비 4배 이상 향상시킵니다.

Key Points

  • 기존 구조화 데이터베이스의 속성 모델링 한계(예: GDP, 수도 등 소수 속성)를 극복하기 위해 설계됨
  • 검색 쿼리 스트림에서 속성을 추출하고, 이를 시드로 삼아 텍스트에서 추가 속성을 추출하는 방식 사용
  • 160만 개의 (클래스, 속성) 쌍 및 67,000개의 고유 속성 이름 포함
  • 속성별 동의어 및 등장 텍스트 패턴을 저장하여 문맥 인식 능력 강화
  • Freebase 대비 웹 테이블의 의미(Semantics) 복원 개수 4배 이상 증가 효과 입증