Data Enriched Linear Regression
Source
Evernote/Papers/Data Enriched Linear Regression.md
Summary
소규모 데이터셋의 예측 성능을 향상시키기 위해, 편향(bias)이 있을 수 있지만 규모가 큰 보조 데이터셋을 활용하는 선형 회귀 방법을 제안합니다. 두 모델 간 예측 차이를 패널티로 부과하여 추정하며, 이는 소지역 추정(small area estimation)의 수축(shrinkage) 방법과 유사합니다. 가우시안 응답 변수에서 계수가 5개 이상이고 오차 자유도가 10 이상일 경우, 편향 크기와 무관하게 소규모 데이터셋만 사용하는 것은 통계적으로 비허용(inadmissible)임을 보였습니다. 패널티 파라미터 튜닝을 위한 플러그인 및 AICc 기반 방법을 제시하며, 주로 L2 패널티를 사용하되 위치(location) 설정에서는 L1 패널티 공식도 유도했습니다.
Key Points
- 소규모 데이터셋 예측 시 대규모(편향 가능) 보조 데이터셋 활용
- 두 모델 간 예측 차이 패널티를 통한 수축(shrinkage) 추정
- 특정 조건(계수≥5, 오차 자유도≥10)에서 소규모 데이터 단독 사용의 비허용성(inadmissibility) 증명
- L2 패널티 중심, 위치 설정 시 L1 패널티 지원
- 페널티 파라미터 튜닝: 플러그인 및 AICc 기반 방법
Related
-
Information-Theoretic Outlier Detection for Large-Scale Categorical Data
-
Neighborhood Preserving Codes for Assigning Point Labels: Applications to Stochastic Search
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
λ-Diverse Nearest Neighbors Browsing for Multidimensional Data
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Point Representation for Local Optimization: Towards Multi-Dimensional Gray Codes
-
An Unsupervised Feature Selection Framework for Social Media Data
-
Protecting Sensitive Labels in Social Network Data Anonymization
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine (Technical Supplement)
-
Moment-Based Spectral Analysis of Large-Scale Networks Using Local Structural Information
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Generalized Optimal Response Time Retrieval of Replicated Data from Storage Arrays
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Efficient Inference and Structured Learning for Semantic Role Labeling