Day 1023: MoE/멀티뷰 학습 및 vLLM 서빙 엔진 탐색

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1023. 2024-04-19.md

Summary

본 노트는 MoE(Expert 혼합) 아키텍처와 멀티뷰 데이터 증강 기법에 대한 학습 난이도 및 개념 정리를 기록하고 있다. 특히 발화 데이터를 다양한 시간 구간으로 분할하여 다중 관점에서 학습하는 방식을 언급한다. 또한, vLLM 서빙 엔진의 핵심 기술인 Paged Attention과 Ray Cluster 활용, OpenAI API 호환성 등을 통해 기존 Transformer 라이브러리 대비 성능 우위와 로컬 배포 가능성을 확인하는 과정을 담고 있다.

Key Points

  • MoE 아키텍처와 Conformer 모델의 결합 방식에 대한 학습 필요성 인식
  • 멀티뷰 학습: 단일 발화(예: 5 초)를 다양한 시간 구간(0-1, 1-3, 0-5 등)으로 분할하여 다중 관점 데이터셋 구성
  • vLLM 서빙 엔진: Paged Attention 기술을 통해 메모리 효율성과 추론 속도 향상
  • vLLM 특징: Ray Cluster 기반 확장성, HuggingFace Transformer 대비 성능 우위, OpenAI API 프로토콜 호환을 통한 로컬 서버 구축 가능
  • 대안 도구 비교: Ollama(Llama3 지원) 및 Oobabooga와의 호환성 현황 확인