훈련 레이블 정제를 통한 텍스트 분류 정확도 향상
Source
Evernote/IFTTT Feedly/Improving Text Classification Accuracy by Training Label Cleaning.md
Summary
Andrea Esuli 와 Fabrizio Sebastiani 가 제안한 연구로, 텍스트 분류에서 레이블 데이터가 부족하거나 비용이 많이 드는 문제를 해결하기 위한 전략 중 하나로 ‘훈련 레이블 정제(Training Label Cleaning, TLC)‘를 다룹니다. TLC 는 인간 주석이 잘못되었을 가능성을 순위로 매겨 정렬하는 랭킹 함수를 설계하여, 주석자가 훈련 세트의 품질을 개선할 수 있도록 돕는 방법입니다.
Key Points
- 텍스트 분류 및 지도 학습에서 레이블 데이터 확보의 어려움(부족함, 고비용) 을 배경으로 함
- 반지도 학습(Semisupervised learning) 과 능동 학습(Active learning) 외에 ‘훈련 레이블 정제(TLC)’ 전략을 제안
- TLC 는 인간 주석자의 오류 가능성을 예측하여 훈련 예제를 순위로 정렬
- 이를 통해 주석자가 훈련 세트의 품질을 효율적으로 검토하고 수정할 수 있도록 지원
Related
-
웹 데이터베이스 검색 결과 자동 주석 처리 (Automatic Annotation of Web Database Search Results)
-
When Amazon Meets Google: Product Visualization by Exploring Multiple Web Sources
-
웹 페이지의 시각적 복잡성 측정 (Measuring the Visual Complexities of Web Pages)
-
A Pure Visual Approach for Automatically Extracting and Aligning Structured Web Data
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring