일본어 ITN 포팅 착수 및 띄어쓰기 복원 알고리즘 고민

Source

  • Field Notes/ReturnZero/Daily Notes/Day 517. 2022-11-29.md

Summary

2022-11-29 일기. 일본어 ITN(Inverse Text Normalization) 모듈을 rt-itn 기반으로 포팅하여 다음 달까지 완료할 계획. 기술적 난제로는 띄어쓰기가 제거된 텍스트에서 원본 띄어쓰기를 복원하는 알고리즘의 한계(특히 붙여쓰기 교정 시 원본 매핑 불가)를 분석하고 해결 방안을 모색함. 또한 관련 프로젝트 디렉토리 정리 및 시스템 설정(inotify) 기록 포함.

Key Points

  • 일본어 ITN 포팅 착수: rt-itn을 일본어 환경에 적용, 기간은 다음 달까지
  • 띄어쓰기 복원 알고리즘 문제점: 띄어쓰기 제거 전후 텍스트 매핑 시, ‘붙여쓰기’ 교정 결과의 경우 원본 공백 위치를 특정할 수 없어 재건이 어려움
  • 해결 방안 모색: 원본 텍스트의 띄어쓰기 구분자를 활용하거나, 글자 단위 클로저 도입 등 다양한 접근 시도 중
  • 개발 환경 정리: Slack 앱(Owen’s slack app) 활용, FastAPI 사용, 관련 디렉토리(3i4k, rt-spellchecker 등) 이동 및 시스템 설정(inotify max_user_watches) 기록