팀벨(Timbel) 평가(Eval) 시스템 디버깅 및 인프라 설정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1148. 2024-08-21.md

Summary

2024-08-21 일일 업무 노트로, 팀벨 프로젝트의 평가(Evaluation) 시스템 실행 중 발생한 오류를 분석하고 해결하기 위한 과정을 기록함. 주요 내용은 Kubernetes 환경에서 metrics-server 설치 및 설정, 평가 API 호출 테스트, 그리고 Triton Inference Server와의 통신 중 발생한 ‘connection reset by peer’ 오류 로그 분석임. 평가 작업이 실패하는 원인을 모델 로드 단계의 네트워크 오류로 추정하고 관련 curl 테스트를 수행함.

Key Points

  • 팀벨 프로젝트의 evaluator 코드 리뷰 및 질의응답 진행
  • Kubernetes metrics-server 설치 및 --kubelet-insecure-tls 인자 추가를 통한 설정 수정
  • 평가 API(/api/v1/evaluate) 호출 테스트 및 로그 확인
  • 평가 작업 실패 원인 분석: Triton 서버(conformer_2_ensemble 모델 로드)로의 HTTP 요청 중 connection reset by peer 오류 발생
  • Triton 서버 모델 로드 엔드포인트 직접 테스트를 위한 curl 명령어 기록