Highlighter 구조 및 패턴 감별 방식 고찰

Source

  • Field Notes/ReturnZero/Daily Notes/Day 442. 2022-09-15.md

Summary

Highlighter 시스템의 데이터 관리 구조(manifest, yaml)와 복잡한 패턴 감별(2개 이상 토큰, 순서, 문맥 고려) 방식을 논의하며, FST(Finite State Transducer) 활용 가능성과 클로저 사용에 대한 고민을 기록함.

Key Points

  • Highlighter 데이터 관리: manifest 또는 yaml을 통한 클래스명, dictionary/rule/blacklist 파일 위치 관리 검토
  • 패턴 감별의 복잡성: 단순 매칭이 아닌, 순서와 전후 문맥을 고려한 2개 이상 토큰 패턴(예: ‘~라면 ~일것이다’) 처리 필요
  • 기술적 고민: FST 활용 시 여러 개 생성 문제, insert 표기 방식, 클로저 사용의 적절성 재고
  • 참고 자료: NVIDIA NeMo의 WFST 튜토리얼 링크 참조