심층 피처 합성 (Deep Feature Synthesis) 개요
Source
Evernote/Inbox/haje01의 노트 haje01.github.io.md
Summary
본 문서는 2015 년 발표된 논문 ‘Deep Feature Synthesis’를 소개하며, 관계형 데이터의 피처 엔지니어링을 자동화하는 알고리즘인 심층 피처 합성 (DFS) 을 설명합니다. DFS 는 엔터티 간 관계를 따라가며 수학 함수를 순차적으로 적용하여 피처를 생성합니다. 주요 개념으로는 엔터티 피처 (efeat), 직접 피처 (dfeat), 순방향/역방향 관계 등이 있으며, 이를 구현한 파이썬 프레임워크 Featuretools 가 언급됩니다. 저자는 이 방법을 통해 Kaggle 등 데이터 과학 경진대회에서 상위권 성적을 거두었음을 보고합니다.
Key Points
- 심층 피처 합성 (DFS) 은 관계형 데이터 세트에서 피처를 자동으로 생성하는 알고리즘이다.
- 알고리즘은 데이터의 기본 필드 관계를 따라가며 수학 함수를 순차적으로 적용하여 피처를 생성한다.
- 피처 유형에는 엔터티 피처 (efeat), 직접 피처 (dfeat), 집계 피처 (afeat) 등이 포함된다.
- 엔터티 간 관계는 순방향 (Forward) 과 역방향 (Backward) 으로 구분된다.
- 이 아이디어는 Featuretools 라는 파이썬 프레임워크로 구현되어 있다.
- 데이터 과학 머신 (DSM) 은 DFS 와 가우시안 코퓰라 프로세스 기반 튜닝을 결합하여 경진대회에서 높은 성과를 거두었다.
Related
-
An Unsupervised Feature Selection Framework for Social Media Data
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Improved Domain Adaptation for Statistical Machine Translation
-
Speaker Adaptation of Context Dependent Deep Neural Networks
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Speech and Natural Language: Where Are We Now And Where Are We Headed
-
Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
-
Language Model Verbalization for Automatic Speech Recognition
-
Target Language Adaptation of Discriminative Transfer Parsers
-
Enlisting the Ghost: Modeling Empty Categories for Machine Translation
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Token and Type Constraints for Cross-Lingual Part-of-Speech Tagging
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Scalable Decipherment for Machine Translation via Hash Sampling