대규모 데이터 스트림의 불확실성 추정

Source

Evernote/Inbox/Estimating Uncertainty for Massive Data Streams.md

Summary

구글 규모(Google-scale)의 방대한 데이터 스트림에서 통계량의 변동성(불확실성)을 추정하는 문제를 다룹니다. 단순히 표본 크기가 크다고 해서 불확실성 계산이 불필요한 것은 아니며, 현대 데이터는 무거운 꼬리(heavy tails), 큰 변동 계수, 작은 효과 크기 등으로 인해 기존 방법의 수정이 필요합니다. 부트스트랩(bootstrap)과 서브샘플링(subsampling) 기반의 두 가지 기본 불확실성 추정 절차를 소개하고, 그 비용과 이론적 성질을 논의하며 구글 데이터를 활용한 사례를 제시합니다.

Key Points

대규모 데이터 스트림에서 2차 분석(second-order analysis) 및 불확실성 추정은 여전히 중요한 과제입니다.
현대 데이터의 특성(무거운 꼬리, 큰 변동성 등)으로 인해 기존 통계 방법의 수정이 필요합니다.
부트스트랩과 서브샘플링 기반의 두 가지 추정 절차를 제안하고 비교합니다.
구글 데이터에 대한 적용 사례를 통해 방법론의 유용성을 입증합니다.

AncomWiki

탐색기

대규모 데이터 스트림의 불확실성 추정

대규모 데이터 스트림의 불확실성 추정

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

대규모 데이터 스트림의 불확실성 추정

대규모 데이터 스트림의 불확실성 추정

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크