Data Enriched Linear Regression

Source

  • Evernote/Papers/Data Enriched Linear Regression.md

Summary

소규모 데이터셋의 예측 성능을 향상시키기 위해, 편향(bias)이 있을 수 있지만 규모가 큰 보조 데이터셋을 활용하는 선형 회귀 방법을 제안합니다. 두 모델 간 예측 차이를 패널티로 부과하여 추정하며, 이는 소지역 추정(small area estimation)의 수축(shrinkage) 방법과 유사합니다. 가우시안 응답 변수에서 계수가 5개 이상이고 오차 자유도가 10 이상일 경우, 편향 크기와 무관하게 소규모 데이터셋만 사용하는 것은 통계적으로 비허용(inadmissible)임을 보였습니다. 패널티 파라미터 튜닝을 위한 플러그인 및 AICc 기반 방법을 제시하며, 주로 L2 패널티를 사용하되 위치(location) 설정에서는 L1 패널티 공식도 유도했습니다.

Key Points

  • 소규모 데이터셋 예측 시 대규모(편향 가능) 보조 데이터셋 활용
  • 두 모델 간 예측 차이 패널티를 통한 수축(shrinkage) 추정
  • 특정 조건(계수≥5, 오차 자유도≥10)에서 소규모 데이터 단독 사용의 비허용성(inadmissibility) 증명
  • L2 패널티 중심, 위치 설정 시 L1 패널티 지원
  • 페널티 파라미터 튜닝: 플러그인 및 AICc 기반 방법