Topsy: 트위터 전량 데이터 검색 서비스

Source

  • Evernote/IFTTT Feedly/트위터 탄생 이래 모든 트윗 모은 검색업체.md

Summary

2013 년 기준, 미국 검색엔진 업체 Topsy 가 2006 년 트위터 창립 이후 생성된 모든 트윗 (약 4,250 억 건 이상) 을 수집한 검색 인덱스 서비스를 공개했다. 텍스트, 미디어 등 모든 소셜 데이터를 포함하며, 자체 분석기를 통해 트윗의 95% 이상에 대해 위치 데이터를 추론할 수 있다고 밝혔다. 하버드대의 지진/콜레라 분석 사례처럼 소셜 데이터의 트렌드 파악 및 패턴 분석 수요를 충족하기 위한 서비스로, 국내 업체들은 데이터 수집 시점이 늦어 전량 보관이 어려운 상황이다.

Key Points

  • Topsy 는 2006 년부터 2013 년까지의 모든 트위터 데이터 (약 4,250 억 건) 를 수집한 검색 서비스를 제공함
  • 텍스트, 비디오, 사진 등 모든 형태의 소셜 데이터를 인덱싱함
  • 사용자가 태그하지 않은 트윗의 95% 이상에 대해 위치 데이터를 추론하는 기술 보유
  • 소셜 데이터를 활용한 트렌드 분석 및 패턴 발견 (예: 하버드대 지진/콜레라 연관성 분석) 의 중요성 부각
  • 국내 검색 업체들은 데이터 수집 시작 시점이 늦어 트위터 전량 데이터를 보유하지 못함