정보 기하학을 통한 순수 고차 단어 연관성 마이닝

Source

  • Evernote/IFTTT Feedly/Mining pure high-order word associations via information geometry for information retrieval.md

Summary

기존의 Bag-of-Word 모델이 단어 간 문맥적 연관성을 포착하지 못하는 한계를 극복하기 위해, 분리 불가능한 의미적 실체를 형성하는 단어들의 ‘순수 고차 의존성(pure high-order dependence)‘을 연구합니다. 무조건적 순수 의존성(UPD)과 조건부 순수 의존성(CPD)을 정의하고, 정보 기하학(Information Geometry) 프레임워크 내에서 이를 식별하기 위한 충분 조건을 유도하여 NP-hard 문제를 해결 가능한 절차로 만듭니다. 이를 통해 문서 표현과 검색 모델의 성능을 향상시키는 것을 목표로 합니다.

Key Points

  • 기존 Bag-of-Word 모델의 문맥 연관성 포착 실패 문제 제기
  • 단어들의 순수 고차 의존성(순수한 의미적 결합)을 통한 문서 표현 개선
  • 무조건적(UPD) 및 조건부(CPD) 순수 의존성의 형식적 정의
  • 정보 기하학(IG) 프레임워크를 활용한 UPD/CPD 식별의 충분 조건 유도
  • NP-hard인 의존성 판정 문제를 해결 가능한 절차로 변환