2025-11-05 업무: 오뚜기 모델 평가 및 L40S Whisper 일본어 성능 검증

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1589. 2025-11-05.md

Summary

본 노트는 2025 년 11 월 5 일의 업무 기록으로, 주요 이슈는 ‘오뚜기’ 프로젝트의 신규 음성 인식 모델 (m2v 100m/250m) 평가와 L40S 기반 Whisper 모델의 일본어 인식 성능 (CER/WER) 검증이다. 오뚜기 모델은 기존 w2v 대비 m2v-100m 이 91.89% 로 미세하게 우위를 보였으며, L40S Whisper 는 일본어 히라가나 테스트에서 CER 16.91% 로 양호하나, 한자 (Kanji) 및 특정 도메인 (qoo10) 에서 성능 저하가 확인되었다. 또한 rtzr-stt pacman 개선 작업과 부산소방 출장 확인 등 운영 업무가 병행되었다.

Key Points

  • 오뚜기 모델 평가: 기존 w2v-100m(91.83%) 대비 신규 m2v-100m(91.89%) 이 최선 성능을 보였으며, m2v-250m 은 91.15% 로 다소 낮음.
  • L40S Whisper 일본어 성능: 히라가나 테스트에서 CER 16.91% 로 비교적 양호하나, 한자 포함 테스트에서는 CER 20~30% 대, WER 130% 이상으로 성능 저하 확인.
  • 특정 도메인 취약성: qoo10 테스트에서 CER 85.29%, SER 100% 로 모델의 일반화 한계 또는 도메인 미적응 문제 노출.
  • 인프라 개선: rtzr-stt pacman 차트 개선 (whisper 지원, configOverride 적용 등) 진행 중이며, kubespray 버그 수정 및 노드 정보 입력 필요.
  • 운영 업무: 부산소방 출장 여부 확인 (출장 예정), 두나무 업로드 작업 완료.