일본어 ASR 모델 성능 벤치마크 및 문제점 (2023-09-25)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 817. 2023-09-25.md

Summary

2023년 9월 25일 일본어 ASR 모델의 FP32 환경 벤치마크 결과 기록. 알파벳/숫자 혼합(alphanumber) 데이터셋에서는 CER 1819%, SER 7677% 수준으로 비교적 양호한 성능을 보였으나, 숫자(number) 전용 데이터셋에서는 CER 34%, SER 97%로 성능이 급격히 저하됨. 한자(kanji) 데이터셋도 CER 26~27%, SER 98%로 높은 오류율을 기록. 주요 문제점으로 토크나이저 입력 시 [UNK] 토큰이 포함된 경우 발생 및 히라가나 혼합 처리의 중요성, 그리고 월급날이라는 개인적 상황에서의 참담한 결과에 대한 기록이 포함됨.

Key Points

  • FP32 환경에서 일본어 ASR 모델의 다양한 데이터셋(alphanumber, number, kanji)에 대한 벤치마크 수행.
  • Alphanumber 데이터셋: CER ~19%, SER ~77%로 상대적으로 가장 나은 성능.
  • Number 데이터셋: CER 34.19%, SER 97.68%로 숫자 인식에 심각한 취약점 확인.
  • Kanji 데이터셋: CER 26.95%, SER 98.94%로 한자 인식도 낮은 정확도.
  • 기술적 이슈: 토크나이저 인풋에 [UNK] 토큰이 포함되는 버그 또는 현상 발견.
  • 히라가나 혼합 처리의 중요성 강조.