Kaldi/Triton GPU OOM 문제 및 팀 전환 초기 적응

Source

  • Field Notes/ReturnZero/Daily Notes/Day 223. 2022-02-08.md

Summary

2022년 2월 8일 일지. 재택근무 중 컨디션 저하와 팀 이동(오리사) 후 적응 스트레스를 기록함. 기술적으로는 Kaldi 기반 음성 인식 파이프라인에서 GPU Out-Of-Memory(OOM) 오류 발생 원인을 분석하고, 배치 사이즈 조정을 통해 서버 구동은 성공했으나 클라이언트 빌드 및 도커 환경 연동에서 추가적인 장애를 겪음. NLP 데이터 품질 측정, 이중 전사 활용, rt-norm 등 관련 기술적 의문점들을 정리함.

Key Points

  • Kaldi CUDA 디코더에서 GPU 메모리 부족(OOM)으로 인한 서비스 중단 발생
  • 배치 사이즈(batch size) 감소를 통해 Triton 서버 구동 성공
  • 클라이언트 빌드 실패 및 도커 환경 연동 실패로 인한 추가 작업 지연
  • NLP 데이터 품질 측정 방법론, 이중 전사(double transcription) 활용 현황, rt-norm 등 기술적 검토 항목 도출
  • 팀 이동(오리사) 1개월 차의 업무 적응 및 컨디션 관리 필요성 인지