ITN 모델 최적화 및 데이터 전처리 작업 기록

Source

  • Field Notes/ReturnZero/Daily Notes/Day 611. 2023-03-03.md

Summary

본 노트는 ReturnZero 프로젝트의 Day 611 작업 일지로, 주로 ITN(Inverse Text Normalization) 모델의 성능 비교, TensorRT 변환 실패 및 해결 과정, 그리고 Qoo10/JSUT 등 데이터셋의 전처리(whitelist, norm) 관련 고민을 기록하고 있다. 특히 숫자 발음의 모호성(수열 vs 숫자) 해결을 위한 TCER 기반 아이디어와 Docker/Triton 배포 환경 설정에 대한 기술적 시행착오가 포함되어 있다.

Key Points

  • ITN 모델 결정: 성능 비교를 통한 모델 선정 및 한국어 숫자(하나~아홉, 천/일천) 처리 규칙 정의
  • TensorRT 변환 문제: trtexec 명령어 실행 중 파일 경로 오류로 인한 변환 실패 및 해결 과정 기록
  • 데이터 전처리: Qoo10 및 JSUT 데이터셋의 rtboost화, 일본어 norm, 알파벳-카타카나 변환 라이브러리 탐색
  • 기술적 아이디어: 숫자 발음 모호성 해결을 위해 ITN 미적용 STT 전사 결과의 TCER과 Levenshtein distance를 활용한 선택 기법 제안
  • 인프라 설정: Triton 앙상블 점검, Docker compose를 통한 SpacingITN Ensemble 서비스 배포 시도