일본어 코드모델 (파나소닉 모델명 인식)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1097. 2024-07-02.md

Summary

파나소닉 가전 모델명(숫자/알파벳 혼합) 인식 모델의 성능 개선 및 서빙 준비 과정 기록. 4자리 숫자 발화 시 ‘0’이 추가되거나 간투어(‘에또’, ‘데스’ 등)가 오인식되는 현상 분석. 자릿값 읽기 vs 자리별 읽기 패턴별 데이터 수집 필요성 확인. Sommers E2E 모델의 패딩(Padding) 유무 및 Dynamic ONNX 변환에 따른 CER(문자 오류율)과 RTFx(실시간 팩터) 성능 비교 실험 수행.

Key Points

  • 문제 정의: 파나소닉 모델명 인식 시 4자리 숫자 발화 중 ‘0’ 중복 삽입 오류 및 간투어 오인식 현상 발생.
  • 데이터 전략: 자릿값 기반 읽기와 자리별 읽기 케이스 구분 필요. 실제 사용 데이터(약 600개) 추가 수집 및 잡음 데이터 포함 여부 검토.
  • 성능 실험: Sommers E2E 모델에서 패딩 적용 시 CER 미세 개선(1.21% -> 1.18%). Dynamic ONNX 적용 시 RTFx 대폭 개선(224 -> 33) 및 CER 유지(2.03%).
  • 다음 단계: 추가 데이터 수신 대기, 기존 데이터 최신 모델로 재평가, Whisper 모델 비교 검토.