ITN-JP 숫자 변환 및 테스트셋 구축 (Day 535)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 535. 2022-12-17.md

Summary

일본어 ITN(Inverse Text Normalization) 모듈 개발 중 Mecab의 영단어/가타카나 인식 오류와 숫자 변환(특히 천/백 단위)의 실패 케이스를 분석하고 있다. 테스트셋(mww-test 기반) 구축, vito-worker 배포, 그리고 숫자 그래프 규칙 수정(천/백 자리 처리)을 주요 할 일로 설정했다.

Key Points

  • Mecab가 연속 영단어를 단일 토큰으로 잘못 인식하는 문제 발생 (예: イピディー).
  • ITN-JP 테스트셋 구축: mww-test 기반의 ref/hyp 변환 문장 선별 및 pytest 환경 구성.
  • vito-worker 생성 및 요청 처리 검증, 테스트셋 다듬기 및 룰 수정 진행.
  • 숫자 변환 버그 분석: 소수점 단위 인식 문제, ‘천/백’ 단위 조합(예: 일백, 일천육)에서의 인식 실패.
  • 해결 시도: 천/백 자리 그래프 규칙 수정(숫자+단위, 1 삽입, 0 삽입 케이스 분리) 및 한자 태그 활용.