MWW 학습 파이프라인 문제 및 vLLM/Gemma2 기술 검토

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1126. 2024-07-31.md

Summary

본 노트는 MWW(Multi-Word Word?) 모델 학습 중 build_TLG 단계에서 특정 문자열로 인해 학습이 중단되는 문제를 기록하고 있다. 또한 새로운 코퍼스 추가 시 토크나이징 및 렉시콘(Lexicon) 재구성이 필요함을 인지했다. 검증 결과 CER 17.4%를 기록했으며, vLLM 환경에서 Gemma2 모델의 sliding window 지원 문제(flashinfer 관련)를 조사하던 중 이해의 한계를 느꼈다. 동료들의 이직/복학 등 조직 변화도 언급됨.

Key Points

  • MWW 학습 시 build_TLG 단계에서 특정 문자열 입력 시 5단계에서 멈춤 현상 발생
  • 새로운 코퍼스 추가 시 토크나이징, 보캡(Vocab) 생성, lang.grapheme 업데이트 필요
  • 검증 결과: 총 2089건 중 364건 오류, CER 17.42%
  • vLLM에서 flashinfer의 sliding window 지원 문제로 Gemma2 토큰 사이즈 활용에 어려움
  • flash_attn_varlen_func 사용 시 window_size 설정은 가능하나 forward 메소드 내 window_left 처리 방식 불명확
  • 동료 ramos 복학, danny 퇴사(솔로 프리랜서) 예정