일본어 숫자 및 날짜 처리 로직 개선 (Day 533)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 533. 2022-12-15.md

Summary

본 노트는 일본어 ASR 전사 결과에서 숫자, 날짜, 시간, 주소(정목/번/호) 등의 특수 표기 처리 로직을 개선하기 위한 실험 기록이다. 한국어 ITN과 달리 일본어는 자릿수 단위로 품사 태깅되는 특성을 고려하여, ‘가나-숫자’ 변환 및 연속 숫자 읽기(히토츠, 후타츠 등) 로직을 테스트했다. 특히 ‘시/분’ 앞 숫자, ‘정목/번/호’ 앞 숫자, 10 이상의 복합 숫자(십/백/천/만) 처리에서 오류가 발생하여, Kiwi 모델의 품사 태깅(12: 수사, 19: 부사 등)과 공백 삽입(space penalty) 기준을 분석하며 테스트셋을 구성하고 F1 점수 계산 방법을 정의했다.

Key Points

  • 일본어 숫자 태깅 특성: 한국어와 달리 자릿수 단위(예: ‘이십’)까지 포함해 태깅되며, 날짜 처리는 확인됨.
  • 문제점 식별: 10 이상 숫자 연달아 읽기, ‘십/백/천/만’ 앞 숫자, ‘정목/번/호’ 앞 숫자, ‘시/분’ 앞 가나 숫자(로쿠, 니지 등) 처리 실패.
  • Kiwi 모델 분석: 품사 태그(12: 수사, 19: 부사 등)에 따른 형변환 오류 확인. ‘시/분’이 부사 가능한 보통명사로 분류되어 처리 난항.
  • 테스트셋 구성: 입력과 교정이 다른 290만 건 중 1,000 건 샘플 추출. 공백 위치(gold/test/pred) 기반 F1 점수 계산 로직 정의.
  • 향후 과제: 일본어 우편번호(7자리), 전화번호, 주소(丁目, 番, 号) 읽기 규칙 연구 및 메캡(Mecab) 태깅 결과 기반 로직 보완.