현대캐피탈 고도화 및 SIMS 암호화/학습 파이프라인 개선

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1485. 2025-07-24.md

Summary

현대캐피탈 프로젝트의 차량번호판 음성 인식 오류 분석(ITN 규칙 수정 필요)과 SIMS 시스템의 utterance 데이터 암호화 구현 진행 상황을 기록함. 특히 K8s 환경에서 train job의 init container를 통한 데이터 복호화 및 복사 로직 개선 중 복잡성으로 인한 난관에 직면함. 또한 일본어/영어 모델 배치, OOV 확장, 가독성 모델 서빙 등 Next Model 로드맵과 SKT 니즈를 정리함.

Key Points

  • 현대캐피탈 차량번호판 인식 오류 사례 분석: ‘201->200일’, ‘다->사’, ‘보->9’ 등 발음 유사성 및 ITN 규칙 충돌로 인한 오인식 발생, N-best 검토 필요
  • SIMS utterance 암호화 구현: pronaia-engine, sims cronjob, admin export/청취 기능에서 .wav.enc 처리 및 DB 암호화 필드 연동 완료
  • Train Job 파이프라인 개선 시도: init container에서 데이터 복사/복호화 수행하려 했으나 fairseq 데이터 준비 및 상태 전달 로직이 복잡하여 테스트 방법론 수립에 어려움
  • Next Model 계획: 일본어/영어 국산모델 배치, OOV 2000->4000자 확장, 가독성 모델(Nemo Hybrid RNN-T) 서빙, Whisper 워드부스팅 지원 검토
  • 인프라/배포: eval-model 디렉토리 구조 정리, triton-model-repository 기반 deploy.yaml 관리 체계 개선 논의