일본어 STT 모델 배포 준비 및 성능 평가 (Day 838)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 838. 2023-10-17.md

Summary

2023-10-17 기준, 일본어 음성 인식(STT) 시스템의 다양한 모델(address, name, number 등)을 테스트하고 배포 설정을 최종화하는 과정입니다. 특히 ‘address’ 모델 탐색과 함께, 숫자(number), 한자(kanji), 알파벳/숫자 혼합(alphanumber), 가타카나, 히라가나 등 도메인별 테스트셋에 대한 추론(Inference) 성능(CER, SER, RTFx)을 측정하여 결과를 기록했습니다.

Key Points

  • 배포 준비 단계에서 설정 변경(cutoff 7) 및 모델 매핑(default, code, name, address, number)을 확정함.
  • PRONAIA_GRPC_URL 등을 설정하여 외부 pysommers 데이터를 활용한 온라인 추론 테스트를 수행함.
  • 도메인별 성능 측정 결과: number(CER 0.76%), katakana(CER 3.81%), hiragana(CER 3.18%)는 비교적 낮은 오류율을 보였으나, kanji(CER 5.96%, SER 37.16%)와 alphanumber(CER 11.4%)는 상대적으로 높은 오류율을 기록함.
  • 각 테스트셋의 처리 시간(dur) 및 실시간 팩터(RTFx)를 함께 기록하여 시스템 부하 및 효율성도 확인함.