WFST 어미 인식 개선 및 gop-decoder S3 연동 계획

Source

  • Field Notes/ReturnZero/Daily Notes/Day 377. 2022-07-12.md

Summary

WFST 기반 한국어 어미 인식(의문형) 규칙을 수정하여 ‘one_top_rewrite’ 대신 ‘top_rewrite’를 적용하는 등 오류를 해결함. 또한 gop-decoder의 FST/utter_info 로딩 방식을 로컬에서 S3 기반 캐싱(md5 검증) 및 리로드 전략(none/file/db)으로 변경하는 작업을 진행 중임.

Key Points

  • WFST 어미 인식 규칙 수정: ‘one_top_rewrite’에서 ‘top_rewrite’로 변경하여 인식 오류 해결
  • 의문형 어미 패턴 정의: 어간+어미 동시 인식, EOS/공백 조건, 글자 수 제한(1~10) 등
  • gop-decoder 아키텍처 변경: 로컬 파일 읽기 → S3 접근 및 md5 기반 모델 변경 감지
  • 리로드 전략 정의: none(비활성), file(S3 기준), db(데이터베이스 기준) 옵션 설정