Rule-based NER 및 Semantic Role Labeling 구현 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 446. 2022-09-19.md

Summary

이 노트는 ITN to NER 변환 및 날짜/서류명 인식 이슈를 해결하기 위한 Rule-based NER과 Semantic Role Labeling의 빠른 구현 방안을 모색한다. 특히 ‘컴포짓 클래스’를 판별하기 위해 아토믹 클래스 감지 결과를 비트 벡터로 인코딩하는 방식을 고안하며, OR 조건 조합 시 발생하는 조합론적 문제(부분집합 매핑)와 점화식 기반 알고리즘 설계에 대한 고민을 기록하고 있다. 또한 규칙 관리 형식(YAML vs FST)에 대한 논의도 포함된다.

Key Points

  • ITN to NER 변환 중 날짜 및 서류명 인식 이슈 발생
  • Rule-based NER 및 Semantic Role Labeling의 고속화를 위한 사전 기반 접근
  • 컴포짓 클래스 판별을 위한 아토믹 클래스 벡터 인코딩 방식 제안 (비트 마스크)
  • OR 조건이 포함된 복합 규칙 처리 시 발생하는 조합 문제 및 점화식 기반 알고리즘 설계 고민
  • 규칙 관리 형식으로서 YAML 또는 FST(Finite State Transducer) 고려