훈련 레이블 정제를 통한 텍스트 분류 정확도 향상

Source

  • Evernote/IFTTT Feedly/Improving Text Classification Accuracy by Training Label Cleaning.md

Summary

Andrea Esuli 와 Fabrizio Sebastiani 가 제안한 연구로, 텍스트 분류에서 레이블 데이터가 부족하거나 비용이 많이 드는 문제를 해결하기 위한 전략 중 하나로 ‘훈련 레이블 정제(Training Label Cleaning, TLC)‘를 다룹니다. TLC 는 인간 주석이 잘못되었을 가능성을 순위로 매겨 정렬하는 랭킹 함수를 설계하여, 주석자가 훈련 세트의 품질을 개선할 수 있도록 돕는 방법입니다.

Key Points

  • 텍스트 분류 및 지도 학습에서 레이블 데이터 확보의 어려움(부족함, 고비용) 을 배경으로 함
  • 반지도 학습(Semisupervised learning) 과 능동 학습(Active learning) 외에 ‘훈련 레이블 정제(TLC)’ 전략을 제안
  • TLC 는 인간 주석자의 오류 가능성을 예측하여 훈련 예제를 순위로 정렬
  • 이를 통해 주석자가 훈련 세트의 품질을 효율적으로 검토하고 수정할 수 있도록 지원