다드미 배포 논의: Align 알고리즘 병목 및 버그 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 645. 2023-04-06.md

Summary

다드미(Dadmi) 배포를 위한 Align 모듈의 성능 최적화 및 알고리즘 결함 분석 기록. 병렬화(mp.Pool) 시 오히려 성능 저하가 발생하여 ThreadPool/Serial 방식이 우위를 보임. 핵심 문제는 기존 Align 알고리즘이 동일한 토큰 매핑 시 문맥 오류를 유발하고, 띄어쓰기 오류로 인한 토큰 병합 시 처리 실패를 겪고 있음. 이를 해결하기 위해 단어 단위 임베딩 비교 또는 레반슈타인 거리(Levenshtein distance) 기반 재구현이 필요함을 인지함.

Key Points

  • Align 병렬화 실험: mp.Pool 사용 시 성능 저하(2.79 개/초), ThreadPool(4.48 개/초) 및 Serial(4.26 개/초)이 더 빠름.
  • 알고리즘 결함: 기존 Align 로직이 ‘아’와 ‘아그리고’ 같은 부분 일치나 동일 토큰 매핑 시 오류 발생.
  • Edge Case: 띄어쓰기 오류로 인해 문장이 하나로 병합될 때 Align 처리가 실패하는 현상 확인.
  • 해결 방향: 단어 단위 임베딩 비교 검토 및 레반슈타인 거리 기반 Align 알고리즘 재구현 필요성 제기.