NLP4STT: ITN 및 띄어쓰기 후처리 개선

Source

  • Field Notes/ReturnZero/Daily Notes/Day 596. 2023-02-16.md

Summary

STT 파이프라인 내 ITN(Inverse Text Normalization) 및 띄어쓰기 모델 통합 방안과 후처리 로직 개선을 논의한 일지. 특수 토큰 도입, BERT 기반 시퀀셜 모델 구조 검토, 숫자 관련 띄어쓰기 오류(FP)에 대한 후처리 규칙(단일 자릿수 숫자 결합) 적용을 주요 내용으로 한다.

Key Points

  • ITN 모델에서 단어 내 토큰 구분을 위한 특수 토큰(_) 도입 검토
  • Spacing-ITN 모델 통합 시 Two-way 대신 BERT 공통 레이어를 활용한 Sequential 구조 선호
  • 숫자 관련 띄어쓰기 False Positive 감소 위해, decode 단계에서 단일 자릿수 숫자(일, 이, 삼 등)를 결합하는 후처리 로직 적용 논의
  • ONNX 모델 최적화(onnx-simplifier) 및 rt-gec 디렉토리 관련 작업 진행 중