GPU 오퍼레이터 설치 및 Air-gapped 환경 구축 준비

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1111. 2024-07-16.md

Summary

이 노트는 GPU 기반 AI 인프라 구축을 위한 기술적 준비 사항을 기록한 일기 형식의 메모입니다. 주요 내용은 NVIDIA GPU Operator의 Helm 설치 명령어와 관련 컨테이너 이미지 버전(driver, DCGM, MIG Manager 등) 목록 정리, 그리고 신한카드 IDC 설치를 위한 서버 사양(추론/학습 서버) 및 Rocky Linux 버전 확인입니다. 또한 네트워크가 차단된(Air-gapped) 환경에서의 Kubernetes 클러스터 부트스트랩을 위해 Zarf 도구와 kubeadm 오프라인 설치 가이드를 참고하고 있습니다. 일본어 토크나이저 구현 방식에 대한 고민(직접 구현 vs 기존 도구 사용)과 학습 실험 결과(alphanumber_only_v3/v4)도 간략히 언급되어 있습니다.

Key Points

  • NVIDIA GPU Operator Helm 설치 및 의존성 이미지(driver, DCGM, MIG Manager 등) 버전 정리
  • 신한카드 IDC 설치를 위한 서버 구성(추론서버 3 대, 학습서버 1 대) 및 OS(Rocky Linux 9.3) 확인
  • Air-gapped 환경에서의 Kubernetes 클러스터 구축을 위한 Zarf 도구 및 kubeadm 오프라인 설치 참고
  • 일본어 토크나이저 구현 방식 결정(기존 도구 사용) 및 특정 데이터셋(715) 적용 계획
  • 알파벳/숫자 전용 모델 학습 실험 결과(v3, v4) 기록