분류 모델의 품질 및 정확도 평가 기초

Source

  • Evernote/Inbox/Tutorial How to determine the quality and correctness of classification models Introduction – Data Science Central.md

Summary

이 문서는 분류(Classification) 모델의 기본 개념과 품질 평가 지표에 대한 소개다. 분류는 객체를 사전 정의된 클래스 중 하나로 할당하는 과정이며, 모델 구축은 데이터 준비(학습/검증/테스트 데이터 분할), 모델 생성, 테스트 데이터 기반 품질 평가, 그리고 지속적인 모니터링 단계로 구성된다. 모델 품질은 혼동 행렬(Confusion Matrix), ROC 곡선, LIFT 차트 등의 정량적 및 그래픽 지표로 평가한다. 특히 이진 분류에서 양성(Positive)과 음성(Negative) 클래스를 구분하고, TP(True Positive), TN(True Negative), FP(False Positive), FN(False Negative)의 정의를 통해 모델의 예측 정확도를 분석하는 기초 지식을 다룬다.

Key Points

  • 분류 모델 구축 프로세스: 데이터 준비(학습/검증/테스트 세트 분할) → 모델 생성 → 테스트 데이터로 품질 평가 → 적용 및 지속적 모니터링
  • 품질 평가 지표: 정량적 지표와 그래픽 지표(혼동 행렬, ROC 곡선, LIFT 차트)를 활용
  • 이진 분류의 기본 개념: 관심 대상(예: 이탈 고객, 연체자)을 양성(Positive) 클래스, 나머지를 음성(Negative) 클래스로 정의
  • 혼동 행렬의 구성 요소: TP(진양성), TN(진음성), FP(위양성), FN(위음성)의 정의 및 의미
  • 이상적인 분류기: FP와 FN이 0이며, 모든 관측치가 실제 클래스에 정확히 할당됨