현대캐피탈 고도화 및 일본어 모델 개발 진행 상황 (Day 1524)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1524. 2025-09-01.md

Summary

현대캐피탈 프로젝트의 음성 데이터 전처리 및 모델 학습(데이터 부족으로 단독 학습 불가), 일본어/multilang 모델 개발, 그리고 utterance 저장 암호화 기능 구현 및 복잡한 테스트 절차 수립을 주요 업무로 기록한 일일 업무 노트입니다.

Key Points

  • 현대캐피탈 고도화: 음성 데이터 발라내기 및 훈련 결과 확인 중. OpenAI 데이터가 50,000 건 미만이라 단독 학습이 불가능하여 추가 데이터 확보 또는 병합 필요.
  • 일본어/Multilang 모델: ‘sommers ja’ 관련 모델(T4 업로드) 및 Next Model 개발 진행 중. 모델 생성 출처 미정.
  • 기술 구현: utterance_save 암호화 기능 구현 중. 이미지 빌드(pronaia-engine 등)부터 sims-ja 배포, passphrase secret 추가, 전사 테스트까지의 복잡한 테스트 절차 정의.
  • 우선순위: 현대캐피탈 음성 발라내기, 차량번호 학습 관찰, 일본어 작업, eval job 실행.