Day 1043: PII Redaction Filter 개발 및 On-Prem 모델 관리

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1043. 2024-05-09.md

Summary

본 노트는 PII(개인식별정보) 제거 필터 개발의 초기 단계와 관련 인프라 설정을 기록한 일기 형식의 업무 메모입니다. 주요 작업으로는 학습 데이터셋(train/test) 구성, mmap 생성, 오디오 샘플링 레이트 변경(audio -> audio.8k) 등이 포함됩니다. 또한 OpenVINO(CPU) 및 Triton(GPU) 기반 ckobert 모델 경로를 명시하고, on-premise 환경에서의 MinIO 모델 저장소 설정 및 Kubernetes 배포 계획(kr-models, jp-models 등)을 정리했습니다. 현재는 필터 구현은 완료되었으나 디버깅 단계에 진입한 상태입니다.

Key Points

  • PII Redaction 필터 개발 착수: 학습 데이터셋 준비, mmap 생성, 오디오 파일 샘플링 레이트 조정 완료.
  • 모델 인프라 설정: OpenVINO(CPU) 및 Triton(GPU)용 ckobert 모델 경로 확인 및 on-premise MinIO 저장소(rtzr-triton-models-onprem) 연동 정보 기록.
  • Kubernetes 배포 계획: deploy-mww-k8s 스크립트를 통해 kr-models, jp-models, SIMS, mww 등 모델 서비스 배포 및 mww_old 정리 예정.
  • 현재 상태: 필터 코드 구현은 완료되었으나 디버깅이 필요한 단계이며, 이번 주 목표는 얼개 구축 및 모델 실행 테스트.