ITN 성능 벤치마크 및 토큰화 버그 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 650. 2023-04-11.md

Summary

WFST와 Neural 기반 ITN(Inverse Text Normalization)의 처리 속도 비교 벤치마크를 수행하고, Neural 모델의 토큰 길이 제한(128→64)을 통한 최적화 방안을 모색함. 또한, 일본어 데이터셋 처리 중 발생한 전화번호 인식 이슈와, 토큰 위치 정보 매핑 시 중복 단어 생성 및 누락 버그를 발견하여 위치 가중치 조정 필요성을 확인함.

Key Points

  • WFST 대비 Neural ITN의 처리 속도 저하 확인 및 배치 사이즈/시퀀스 길이 최적화 필요
  • ITN 토크나이저의 MAX_SEQUENCE_LENGTH를 128에서 64로 축소하여 성능 개선 시도
  • 일본어 데이터셋에서 전화번호 인식 오류 발생
  • 토큰 위치 매핑 과정에서 중복 단어 생성 및 텍스트 누락 버그 발견
  • 버그 해결을 위해 토큰 위치 가중치 조정 필요성 확인