신한은행 인프라 연동 및 라벨링 파이프라인 논의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 489. 2022-11-01.md

Summary

신한은행 인프라팀과의 회의 내용을 기록한 일기 형식 노트입니다. 주요 의제는 DGX 기반 Kubernetes 학습 환경에 워커 이미지(Triton 등)를 배포하기 위한 노드 스펙(OS, 드라이버) 확인, 그리고 통화 주제 라벨링을 위한 BMT(음성 인식) 전사 파이프라인 구축입니다. 화자 분리 정보가 없는 데이터에 대한 라벨링 처리 방안과 관련 Docker 실행 명령어가 포함되어 있습니다.

Key Points

  • 신한은행 학습 환경은 DGX 기반 Kubernetes 노드로 구성됨
  • Triton 등 워커 이미지 배포 시도, 실패 시 신한 제공 이미지 사용 검토
  • 필요 정보: 노드 스펙, OS 버전, 드라이버 버전
  • 통화 주제 라벨링을 위해 BMT를 활용한 전사 파이프라인 구축 계획
  • Dev 환경 분리 및 레코드 ID-음성 파일 매핑 필요
  • 현재 데이터에 화자 분리(Speaker Diarization) 정보가 없어 라벨링 처리에 제약 존재
  • E2E 워크플로우 실행을 위한 Docker Compose 명령어 기록