NLP 라벨링 도구: 예측 및 비교 스크립트

Source

  • Field Notes/ReturnZero/Daily Notes/Day 470. 2022-10-13.md

Summary

이 노트는 NLP 데이터 라벨링 작업을 지원하기 위한 두 가지 Python 스크립트(run_rule_based_classifier.py, run_compare_result.py)의 사용법과 출력을 기록하고 있다. 규칙 기반 분류기를 통해 TSV 데이터를 클래스별로 예측하고, 서로 다른 예측 결과 간의 차이(diff)를 비교 분석하는 워크플로우를 다룬다. 또한 실제 텍스트 예시와 함께 <QD>, <QI>, <AB> 등의 태그 적용 사례를 통해 라벨링 기준이나 에지 케이스(예: ‘보상이니까’, ‘인력확정되시면’)에 대한 고민을 남겼다.

Key Points

  • 규칙 기반 분류기 실행: TSV 입력 → 클래스별 ID/결과/태그 JSON 출력
  • 결과 비교 도구: 두 가지 예측 결과의 차이점만 추출하여 JSON으로 저장
  • 라벨링 태그 예시: QD(질문/요청), QI(정보 요청), AB(부정/대안), CO(약속/행동) 등
  • 에지 케이스 분석: ‘보상이니까’와 같은 문맥적 뉘앙스나 ‘인력확정’ 관련 표현의 라벨링 기준 고민