ReturnZero Day 1489: utterance 암호화 구현 및 Next Model(일본어) 탐색

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1489. 2025-07-28.md

Summary

본 노트는 ReturnZero 프로젝트의 Day 1489 업무 기록으로, 현대캐피탈 고도화 반입 대기 상황과 함께 utterance_save 암호화 기능의 전사-저장-학습 파이프라인 구현 진행 상황을 상세히 기술한다. 특히 K8s 환경에서의 데이터 복사 및 복호화 로직 개선, 테스트 방법의 복잡성, 그리고 요약 기능의 조건문 로직 리뷰가 포함된다. 또한 Next Model 단계로 넘어가 일본어/다국어 지원(Pronaia API, Triton Worker 분기)을 위한 모델 빌드 전략(cutoff vs dynamic length)과 Parakeet Nemo 모델 검토, ONNX 배치 사이즈 확장 필요성 등 기술적 탐색 과정을 기록하고 있다.

Key Points

  • 현대캐피탈 고도화: MWW CS팀 연락 대기 중, 오늘 반입 목표.
  • utterance_save 암호화 구현: pronaia-engine(.wav.enc 생성), sims cronjob(admin export/청취)에서 암호화 데이터 처리 로직 구현 완료.
  • Train Job 구조 개선: Init container에서 데이터 복사/복호화 수행하도록 변경 시도 중. RTZR_SKIP_DATA_COPY 전달 방식 및 테스트 환경 구축이 복잡함.
  • Next Model(일본어/다국어): Pronaia API에 language 파라미터 추가 검토. Triton Worker에서 언어별 모델 분기(whisper_ensemble 유사 구조) 필요성 확인.
  • 모델 빌드 전략: 일본어 모델의 경우 cutoff 기반 배치 vs dynamic length 배치 고려. Parakeet Nemo(600m) 모델 검토 및 ONNX 배치 사이즈 확장 필요성 인지.
  • 요약 기능 로직 리뷰: UseSummarization 조건문에서 화자분리(Diarization) 및 도메인(Call) 조합에 따른 활성화 로직 수정 검토.