ITN 이슈: CTM 정보 복구

Source

  • Field Notes/ReturnZero/Daily Notes/Day 499. 2022-11-11.md

Summary

Inverse Text Normalization(ITN) 처리 과정에서 띄어쓰기 및 맞춤법 교정으로 인해 원본 문자열이 변형될 때, 이를 통해 생성된 CTM(Continuous Time Markov) 정보(토큰, 시작 위치, 지속 시간)를 정확히 복구하는 방법론에 대한 고민과 탐색 기록.

Key Points

  • ITN 처리(띄어쓰기, 맞춤법)로 인한 문자열 변형 시 원본 CTM 정보 복구 문제 제기
  • 문자 기반 탐색의 한계: 공백은 유지되나 문자 변형 시 매핑 어려움
  • 해결 방향 모색: 수정 시 원본 문자열 정보 저장 또는 다중 단어 수정 처리 방안 검토
  • 현재 상태: 관련 검색 시도했으나 명확한 해결책 부재