ITN 성능 병목 분석 및 일본어 전사 개선 방향

Source

  • Field Notes/ReturnZero/Daily Notes/Day 587. 2023-02-07.md

Summary

띄어쓰기 교정 파이프라인의 처리 속도 저하(초당 80개) 원인을 추론 속도 및 전후처리(chunk 나누기, 결과 합치기, batch 처리)로 분석하고, PyTorch 모델 전환 및 큐 기반 처리 등 개선 방안을 제시함. 또한 일본어 ITN(Inverse Text Normalization)에서 히라가나 숫자 및 약어 전사 오류를 지적하고, 한국어 사례를 참고한 학습 데이터(TTS 생성 포함) 확보 필요성을 언급함.

Key Points

  • ITN 파이프라인 속도 저하 원인: 추론 자체의 느림 또는 전후처리(chunk 나누기, 결과 합치기, batch 리스트 처리) 의심
  • 개선 방안: PyTorch 모델 전환, 결과 합치기 방식 변경(array join), batch 처리 큐화, 컨테이너 확장
  • 일본어 ITN 문제점: 히라가나 숫자(예: せんきゅうひゃ…) 및 약어(예: エスエピエ) 전사 시 오류 발생
  • 해결 방향: 숫자 및 영어 읽기 데이터 확보 필요, TTS를 통한 데이터 생성 고려