심층 피처 합성 (Deep Feature Synthesis) 개요

Source

  • Evernote/Inbox/haje01의 노트 haje01.github.io.md

Summary

본 문서는 2015 년 발표된 논문 ‘Deep Feature Synthesis’를 소개하며, 관계형 데이터의 피처 엔지니어링을 자동화하는 알고리즘인 심층 피처 합성 (DFS) 을 설명합니다. DFS 는 엔터티 간 관계를 따라가며 수학 함수를 순차적으로 적용하여 피처를 생성합니다. 주요 개념으로는 엔터티 피처 (efeat), 직접 피처 (dfeat), 순방향/역방향 관계 등이 있으며, 이를 구현한 파이썬 프레임워크 Featuretools 가 언급됩니다. 저자는 이 방법을 통해 Kaggle 등 데이터 과학 경진대회에서 상위권 성적을 거두었음을 보고합니다.

Key Points

  • 심층 피처 합성 (DFS) 은 관계형 데이터 세트에서 피처를 자동으로 생성하는 알고리즘이다.
  • 알고리즘은 데이터의 기본 필드 관계를 따라가며 수학 함수를 순차적으로 적용하여 피처를 생성한다.
  • 피처 유형에는 엔터티 피처 (efeat), 직접 피처 (dfeat), 집계 피처 (afeat) 등이 포함된다.
  • 엔터티 간 관계는 순방향 (Forward) 과 역방향 (Backward) 으로 구분된다.
  • 이 아이디어는 Featuretools 라는 파이썬 프레임워크로 구현되어 있다.
  • 데이터 과학 머신 (DSM) 은 DFS 와 가우시안 코퓰라 프로세스 기반 튜닝을 결합하여 경진대회에서 높은 성과를 거두었다.