일본어 음성 인식 모델 테스트 결과 (2024-04-15)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1019. 2024-04-15.md

Summary

2024 년 4 월 15 일 sims 환경에서 일본어 음성 인식 모델 (PRONAIA) 의 테스트 데이터를 검증한 기록입니다. 한자, 가타카나, 히라가나, 숫자 등 문자 유형별 인식 정확도 (CER, WER) 와 처리 속도 (RTFx) 를 측정했으며, 특히 숫자 인식의 낮은 정확도와 각 유형별 성능 편차에 대한 의문을 제기하고 있습니다.

Key Points

  • sims-k8s 환경에서 PRONAIA 모델을 사용하여 일본어 테스트 데이터셋 (mww_test_240307) 검증 수행
  • 문자 유형별 성능 분석: 히라가나 (CER 0.42%) 가 가장 우수하며, 숫자 (CER 9.38%, WER 53.39%) 가 가장 취약함
  • 한자 (CER 4.68~6.58%) 와 가타카나 (CER 4.89%) 는 중간 수준의 오류율 보임
  • 처리 속도 (RTFx) 는 데이터셋과 실행 환경에 따라 232~473 사이로 변동
  • 각 문자 유형별 ‘correct’ 점수 (예: kanji 6.5, katakana 17.4 등) 의 큰 편차 원인에 대한 추가 조사 필요성 제기