ITN: 텍스트 토크나이징 및 인퍼런스 파이프라인 개선

Source

Field Notes/ReturnZero/Daily Notes/Day 691. 2023-05-22.md

Summary

이 노트는 텍스트 토크나이징 과정에서 발생하는 과도한 토큰(over-tokenization) 문제를 해결하기 위한 파이프라인 개선을 다룹니다. 특히 긴 텍스트를 처리할 때 패딩 없이 토크나이징 후 길이별 큐로 분류하는 방식과, 서브시퀀스 분할 시 [CLS]/[SEP] 특수 토큰이 중복 삽입되는 버그를 지적하고 있습니다. 또한 VectorDB(Chroma) 및 LangChain 연동을 위한 맥락이 포함되어 있습니다.

Key Points

과도한 토큰 생성을 방지하기 위한 직접적인 토크나이징(shoooot) 접근 시도
긴 텍스트 처리를 위한 패딩 없는 토크나이징 및 길이 기반 큐 분류 전략
서브시퀀스 분할 시 [CLS] 및 [SEP] 토큰의 중복 삽입 버그 발견 및 수정 필요성 제기
Chroma(VectorDB) 및 LangChain과의 연동 고려 사항

AncomWiki

탐색기

ITN: 텍스트 토크나이징 및 인퍼런스 파이프라인 개선

ITN: 텍스트 토크나이징 및 인퍼런스 파이프라인 개선

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

ITN: 텍스트 토크나이징 및 인퍼런스 파이프라인 개선

ITN: 텍스트 토크나이징 및 인퍼런스 파이프라인 개선

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크