Topsy: 트위터 전량 데이터 검색 서비스
Source
Evernote/IFTTT Feedly/트위터 탄생 이래 모든 트윗 모은 검색업체.md
Summary
2013 년 기준, 미국 검색엔진 업체 Topsy 가 2006 년 트위터 창립 이후 생성된 모든 트윗 (약 4,250 억 건 이상) 을 수집한 검색 인덱스 서비스를 공개했다. 텍스트, 미디어 등 모든 소셜 데이터를 포함하며, 자체 분석기를 통해 트윗의 95% 이상에 대해 위치 데이터를 추론할 수 있다고 밝혔다. 하버드대의 지진/콜레라 분석 사례처럼 소셜 데이터의 트렌드 파악 및 패턴 분석 수요를 충족하기 위한 서비스로, 국내 업체들은 데이터 수집 시점이 늦어 전량 보관이 어려운 상황이다.
Key Points
- Topsy 는 2006 년부터 2013 년까지의 모든 트위터 데이터 (약 4,250 억 건) 를 수집한 검색 서비스를 제공함
- 텍스트, 비디오, 사진 등 모든 형태의 소셜 데이터를 인덱싱함
- 사용자가 태그하지 않은 트윗의 95% 이상에 대해 위치 데이터를 추론하는 기술 보유
- 소셜 데이터를 활용한 트렌드 분석 및 패턴 발견 (예: 하버드대 지진/콜레라 연관성 분석) 의 중요성 부각
- 국내 검색 업체들은 데이터 수집 시작 시점이 늦어 트위터 전량 데이터를 보유하지 못함
Related
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling
-
Information-Theoretic Outlier Detection for Large-Scale Categorical Data
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
사회적·공간적 근접성을 활용한 공동 검색 (Joint Search by Social and Spatial Proximity)
-
웹캠의 지리적 통합 및 보정 (Web-accessible geographic integration and calibration of webcams)
-
Intel Research: Context Awareness - Social Proximity Detection
-
웹 데이터베이스 검색 결과 자동 주석 처리 (Automatic Annotation of Web Database Search Results)
-
When Amazon Meets Google: Product Visualization by Exploring Multiple Web Sources
-
브라우저 캐시를 통한 지리적 추론 공격 (Geo-Inference Attacks via Browser Cache)
-
An Unsupervised Feature Selection Framework for Social Media Data