MWW 한국어 SIMS 및 팀벨 인프라 구축 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 977. 2024-03-04.md

Summary

2024년 3월 4일 기준, MWW 프로젝트의 한국어 SIMS(5, 10초 모델) 배포 및 팀벨(Timber) 환경에서의 Kubernetes 인프라 구축 진행 상황을 기록한 일일 노트입니다. 주요 이슈로는 Kubespray 클러스터와 수동 편입 노드 간 SSL 인증서 호환성 문제, GPU 노드 스케줄링(Affinity), Keycloak DNS 설정 등이 있으며, 다산콜센터 등 고객사별 요구사항(STT 안정성, 이중화 수준)에 따른 최소 구성안(GPU 노드 수, Kafka/MinIO 분산 모드)을 정리하고 있습니다. 또한 Ncloud 환경에서의 Helm 배포 및 tmpfs를 활용한 Docker 이미지 최적화 방법도 포함됩니다.

Key Points

  • MWW 한국어 SIMS: 5, 10초 모델만 선택 배포 예정
  • 팀벨 인프라 이슈: Kubespray 클러스터와 수동 편입 노드 간 SSL 인증서(ca.crt) 에러 발생, GPU 노드 스케줄링 및 Keycloak DNS+Ingress 설정 완료
  • 노드 역할 정의: master(컨트롤 플레인), worker1(GPU/STT 엔진), worker181/182(Kafka/Keycloak/MinIO 테스트), rtzr-training(학습), tts-dev 등
  • 최소 구성 가이드라인: STT only 시 GPU 2개, All-in-one 시 4~5개 노드 권장. MinIO(분산 4개), Kafka(분산 3대) 이중화 조건 고려
  • 고객사별 요구사항: 다산콜센터는 STT 끊김 방지 최우선, 공공은 유연하고 금융은 엄격한 조건
  • Ncloud 환경: Helm 배포 진행 중, 팀벨 라이선스 20채널 발급, T4/A5000 모델 준비
  • 운영 팁: tmpfs 생성 후 Docker 이미지 로드하여 디스크 I/O 최적화