일본어 ITN(숫자 읽기) 디버깅 및 워커 개발

Source

  • Field Notes/ReturnZero/Daily Notes/Day 534. 2022-12-16.md

Summary

2022-12-16 일지. 일본어 ITN(Inverse Text Normalization) 시스템에서 숫자 및 날짜 변환 오류를 디버깅하는 과정 기록. 자릿수/숫자 태깅 방식의 불일치, ‘19’ 이상 및 ‘015’ 등 특정 숫자 처리 실패, ‘정목/번/호’ 앞 숫자 인식 실패, 영어 혼합 시 태깅 문제, 띄어쓰기 부재로 인한 WordNet 스코어링 오류 등을 분석. ‘number_only’ 로직 오류와 ‘quantity’ 꼬임 현상 확인.

Key Points

  • 일본어 ITN 시스템의 숫자 읽기(Reading) 기능 개선 및 워커 생성 목표
  • 기존 태깅 방식(숫자/자릿수 분리)과 현재 태깅 결과(병합)의 불일치로 인한 처리 오류
  • 특정 숫자(19, 015, 25일 vs 25) 및 접두사(정목, 번, 호) 앞 숫자 변환 실패 사례
  • 영어 혼합 시 ‘디-‘와 같은 접두사의 품사(심볼 vs 보툴명사) 판별 어려움
  • 띄어쓰기 부재로 인한 WordNet 스코어링 누적 실패 및 3글자 치환 제한 원인 분석
  • ‘number_only’ 로직 오류와 ‘quantity’ 필드 꼬임 현상 확인