WFST 엔진 개발 및 토큰 태그 삽입 로직 개선 (Day 399)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 399. 2022-08-03.md

Summary

재택 근무 중 WFST(Weighted Finite State Transducer) 엔진 개발을 진행하며, FST 전후의 글자와 공백에 가중치를 조정하여 토큰 문자열만 정확히 추출하고 태그를 삽입하는 로직을 구현했다. 특히 FST 클로저 사용 시 발생하는 중첩 문장 표현 감지 문제와 후위/전위 패턴 검증 오류를 분석하고, 띄어쓰기(SPACE) 패턴을 명시적으로 추가하여 해결 방안을 모색했다. 또한 사전 파일 형식을 TSV에서 YAML로 변경하는 등 코드 구조를 개선하고, 테스트셋을 통해 규칙을 보완하며 정확도를 높이는 방향으로 고도화 전략을 수립했다.

Key Points

  • WFST 엔진 개발: FST 전후 공백/글자 가중치 조정을 통한 토큰 추출 및 태그 삽입 로직 구현
  • FST 클로저 문제 해결: 중첩 문장 표현 감지 시 발생하는 검증 오류(후위/전위 패턴) 분석 및 SPACE 패턴 명시적 추가를 통한 해결 시도
  • 인프라 개선: 사전 파일 형식 TSV -> YAML 변경 (PyYAML 사용)
  • 고도화 방향: 도메인 사전 중요성 인식, TF-IDF 고려, 테스트셋 기반 규칙 보완 및 정확도 향상 목표