WFST(pynini) 학습 및 한국어 숫자/어미 처리 실험

Source

  • Field Notes/ReturnZero/Daily Notes/Day 373. 2022-07-08.md

Summary

본 노트는 WFST(Weighted Finite State Transducer) 라이브러리인 pynini 의 예제(plurals, numbers, Spanish G2P)를 분석하며 내부 함수(_priority_union, cdrewrite 등)와 시그마(Σ) 구성 방식을 학습한 기록이다. 이를 바탕으로 한국어 숫자-한글 변환(1 천조 단위)을 구현했으며, 띄어쓰기 규칙 적용과 ‘1’ 생략 처리의 어려움을 기술적 문제로 제기했다. 또한 한국어 문장 말미의 어미를 인식하여 물음표를 자동 삽입하는 WFST 규칙 설계(어간/어미 동시 인식, 조건부 매칭)에 대한 초기 아이디어를 정리했다.

Key Points

  • pynini 의 _priority_union 과 cdrewrite, 시그마(Σ) 클로저 등 핵심 연산자 및 구조 학습
  • 영어 복수형 및 스페인어 G2P 예제를 통한 규칙 기반 변환 로직 분석
  • 한국어 숫자-한글 변환기 구현 (1 천조 단위 지원, 0 처리, teen 규칙 적용)
  • 한국어 숫자 변환의 미해결 과제: 자연스러운 띄어쓰기 구현 및 만 단위 이상에서 ‘1’ 생략 로직
  • 한국어 의문문 자동 생성을 위한 WFST 규칙 설계: 어미 패턴 인식 및 문맥 기반 조건부 매칭