2025-10-13 업무: 일본어 STT 모델 검증 및 제로원 제안서 초안

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1566. 2025-10-13.md

Summary

본 노트는 2025 년 10 월 13 일의 업무 기록으로, 크게 두 가지 핵심 주제를 다룬다. 첫째, 일본어 음성 인식 (STT) 모델의 학습 및 검증 과정에서 발생한 성능 저하 (CER 급등) 와 데이터 파티셔닝 오류 (대시, 괄호 처리 실패) 를 분석하고 있다. 기존 모델과 새 모델의 테스트 결과 비교를 통해 하이픈 이후 절단 현상 등 구체적인 오류 패턴을 도출했다. 둘째, ‘제로원’ 프로젝트의 텍스트 정규화용 경량 신경망 언어 모델 개발 제안서 초안을 작성하는 과정을 기록하고 있다. TTS 엔진을 위한 온디바이스 모델 개발 배경, 프로젝트 일정 (4 개월), 인력 구성, 그리고 데이터 및 모델 구축 파이프라인에 대한 개요를 포함한다. 또한 신한카드 보안 요건 및 보이스피싱 대응 환경 구축 일정 등 기타 업무 이슈도 언급된다.

Key Points

  • 일본어 STT 모델 학습 중 150k 스텝에서 중단되어 기존 설정으로 복귀 및 재학습 시도
  • 데이터셋 파티셔닝 오류로 인한 모델 성능 저하 (CER 12.4% -> 20.3% 급등) 확인
  • 특정 문자 (대시, 괄호) 처리 실패 및 하이픈 이후 텍스트 절단 현상 등 오류 패턴 분석
  • 제로원 프로젝트 제안서 초안 작성: TTS 용 텍스트 정규화 경량 신경망 모델 개발
  • 프로젝트 개요: 2025.11~2026.02(4 개월), 예산 5000 만원, 온디바이스 동작 목표
  • 개발 범위: 모델 구조/토크나이저 연구, 증류 (Distillation), 데이터 생성 - 검증 파이프라인 구축
  • 기타 업무: 신한카드 보안 스크립트 확보 필요, 보이스피싱 대응 환경 구축 (10/20 자체, 10/30 IDC)