2024-07-19 ASR 모델 벤치마크 결과 (Alphanumeric)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1114. 2024-07-19.md

Summary

2024년 7월 19일 휴가 중 수행된 ASR(자동 음성 인식) 모델들의 알파벳/숫자 인식 성능 벤치마크 로그입니다. mww_test_0915, mww_test_0911, mww_test_240205, mww_alphanumber_240605, mww_alphanumber_place_240715 등 총 5개 모델의 추론 속도(RTFx) 및 정확도(CER, WER, SER) 평가 결과를 기록하고 있습니다. 특히 mww_test_240205 모델이 가장 낮은 CER(2.44%)과 WER(16.04%)을 기록한 반면, no_vad 옵션이 적용된 모델들은 WER 성능이 현저히 저하(99% 이상)된 것으로 나타납니다.

Key Points

  • 벤치마크 대상: 알파벳/숫자 인식 특화 ASR 모델 5종
  • 최고 성능 모델: mww_test_240205_alphanumber (CER 2.44%, WER 16.04%, RTFx 245.33)
  • 성능 저하 요인: VAD(Voice Activity Detection) 미적용 모델(no_vad)에서 WER이 99% 이상으로 급락하며 단어 단위 인식 실패 확인
  • 추론 속도: 모델에 따라 RTFx가 66.71(mww_test_0915)에서 306.44(mww_alphanumber_240605)까지 편차 존재
  • 데이터 규모: 평가 utterance 수가 1,013개(mww_test_0911)에서 6,270개(mww_test_240205)까지 다양함