일본어 ITN (Inverse Text Normalization) 처리 규칙 및 문제점

Source

  • Field Notes/ReturnZero/Daily Notes/Day 537. 2022-12-19.md

Summary

일본어 음성 인식 후처리(ITN) 단계에서 소수점, 전화번호, 알파벳, 숫자(전각/반각) 처리 시 발생하는 규칙 충돌과 인식 오류를 분석함. 특히 연속 알파벳의 가타카나 변환, 약어 사전 판별의 한계, 전각/반각 통일성 문제 등을 다룸.

Key Points

  • 소수점: 일본어에서 ‘점’을 생략하는 경우는 드뭄.
  • 전화번호: 하이픈은 발음하지 않으며, 0(제로), 4(욘), 7(나나) 등 특수 발음 규칙 적용.
  • 알파벳 처리: 연속 알파벳은 하나로 묶어 인식하며, 끝자락에 태그가 붙음. 알파벳과 가타카나가 섞인 경우 약어 사전으로 판별하나, 인명이나 감탄사로 오인식될 위험 존재.
  • 숫자 전각/반각: 주소는 전각 권장이나, 처리 복잡도 고려하여 반각 ASCII 통일方針 결정.
  • ITN 테스트: utterance 단위 label과 단어 단위 req/result 비교를 통한 검증 진행 중.