SIMS 암호화 구현 및 다국어 모델 파이프라인 논의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1486. 2025-07-25.md

Summary

본 노트는 SIMS 시스템의 utterance 데이터 암호화 구현 진행 상황과 다국어(일본어 등) 모델 지원을 위한 파이프라인 구조 개선 논의가 주를 이룬다. 암호화 측면에서는 pronaia-engine, cronjob, admin export, train job 등 전 주기에 걸친 .wav.enc 처리 및 복호화 로직 구현이 완료되었으나, 테스트 환경 구축의 복잡성과 eval job 미완성으로 인해 검증이 지연되고 있다. 모델 측면에서는 언어별 모델 배포 전략(whisper 방식 참조)과 동적 배치 처리의 기술적 장벽(cutoff 부재)에 대한 고민이 기록되어 있다.

Key Points

  • SIMS utterance 데이터 암호화: pronaia-engine(.wav.enc 생성), cronjob(rawRecordData encrypted 필드), admin export(암호화 유지), train job(init container 복호화) 등 주요 컴포넌트 구현 완료
  • 테스트 및 검증 병목: 테스트 환경 구축이 복잡하여 모듈 단위 확인 중이며, eval job과 RTZR_SKIP_DATA_COPY 전달 방식 등 미해결 이슈 존재
  • 다국어 모델 파이프라인: 일본어/멀티랭귀지 지원을 위해 request에 language 포함, 언어별 모델명 규칙 변경(whisper 방식 참조) 논의
  • 기술적 과제: 동적 길이 모델(일본어 등)의 경우 cutoff 부재로 인한 동적 배치 처리의 어려움, 배치 사이즈 최적화 필요성 제기