ReturnZero: 컴포짓 클래스 및 라벨링 규칙 설계 고민

Source

  • Field Notes/ReturnZero/Daily Notes/Day 447. 2022-09-20.md

Summary

ReturnZero 프로젝트에서 컴포짓 클래스 생성, OR 조건문 구현, 해시 함수 기반 라벨링 전략에 대한 설계 고민을 기록함. 특히 ‘question_explain’과 ‘question’과 같은 서브클래스 간 경계 설정과 오검출 방지를 위한 계층적 규칙 적용 필요성을 논의함. 또한 ITN(Intermediate Text Normalization) 처리 후 재라벨링의 비효율성 지적 및 사전 기반 규칙의 한계, 패키지화 방향성 등을 포함함.

Key Points

  • 컴포짓 클래스는 리스트 갱신 방식으로 다중 생성 가능
  • 해시 함수는 아토믹 클래스별로 적용하며, 레이블 해시값 합산 방식 고려
  • 서브클래스(예: question_explain vs question) 간 명확한 분리 필요, 오검출 방지를 위해 상위 클래스도 함께 잡도록 규칙 설계
  • ITN 처리된 텍스트의 재라벨링 부담: ITN 변환 시 라벨을 함께 부여하는 방식 제안
  • 사전 기반 규칙의 충분성 검토 및 rule-based 시스템의 패키지화 필요성
  • 시간/숫자 표현 처리 및 ITN 커버리지 범위 확인 필요