ITN 수정 및 토크나이징 성능 최적화 고민

Source

  • Field Notes/ReturnZero/Daily Notes/Day 692. 2023-05-23.md

Summary

ITN 관련 버그 수정 작업 중 토크나이징 단계의 성능 병목 현상을 발견함. NumPy 변환의 오버헤드(O(n))와 차원 맞추기의 복잡성으로 인해, 리스트 연산 후 최종 변환 전략 또는 패딩 기반 토크나이징 등 대안적 최적화 방안을 모색 중임.

Key Points

  • ITN 수정 작업 진행 중 토크나이징 성능 이슈 발생
  • NumPy 배열 변환 및 차원 조정 과정에서 발생하는 계산 비용(O(n))이 문제
  • 최적화 방안 1: 리스트 연산 유지 후 최종 단계에서만 NumPy 변환
  • 최적화 방안 2: max_length 기반 패딩 후 토크나이징 (차선책)