ITN: 텍스트 토크나이징 및 인퍼런스 파이프라인 개선

Source

  • Field Notes/ReturnZero/Daily Notes/Day 691. 2023-05-22.md

Summary

이 노트는 텍스트 토크나이징 과정에서 발생하는 과도한 토큰(over-tokenization) 문제를 해결하기 위한 파이프라인 개선을 다룹니다. 특히 긴 텍스트를 처리할 때 패딩 없이 토크나이징 후 길이별 큐로 분류하는 방식과, 서브시퀀스 분할 시 [CLS]/[SEP] 특수 토큰이 중복 삽입되는 버그를 지적하고 있습니다. 또한 VectorDB(Chroma) 및 LangChain 연동을 위한 맥락이 포함되어 있습니다.

Key Points

  • 과도한 토큰 생성을 방지하기 위한 직접적인 토크나이징(shoooot) 접근 시도
  • 긴 텍스트 처리를 위한 패딩 없는 토크나이징 및 길이 기반 큐 분류 전략
  • 서브시퀀스 분할 시 [CLS] 및 [SEP] 토큰의 중복 삽입 버그 발견 및 수정 필요성 제기
  • Chroma(VectorDB) 및 LangChain과의 연동 고려 사항