ASR 성능 벤치마크 및 SER 이슈 분석 (2024-07-18)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1113. 2024-07-18.md

Summary

2024년 7월 18일 업무 노트로, 일본어 ASR 모델의 성능 저하 원인을 분석하기 위해 다양한 테스트셋(place, digit, number 등)과 모델 버전(v2~v4)에 대한 벤치마크 결과를 기록함. 특히 Dan이 언급한 SER(Sentence Error Rate) 60% 수준에 대한 의문과 실제 측정된 SER(4%~42% 대) 간의 괴리, 그리고 WER이 99% 이상으로 매우 높게 나오는 이상 현상(단위 오류 또는 평가 기준 문제 의심)에 대한 확인 필요성을 제기함. TMN 전사 결과와 T4 환경 실행 결과도 비교 검토 대상으로 언급됨.

Key Points

  • 일본어 ASR 모델의 성능 부진 원인 규명을 위한 벤치마크 실행
  • 다양한 테스트셋(mww_alphanumber_place, digit, number 등)에 대한 CER, WER, SER 지표 기록
  • Dan의 SER 60% 언급과 실제 측정값(최대 42.4%) 간 불일치 확인 필요
  • WER이 99% 이상으로 극단적으로 높은 이상치 발생 (단위 오류 또는 평가 로직 문제 가능성)
  • TMN 전사 결과 및 T4 환경 실행 결과와의 비교 분석 계획
  • 모델 버전(v2, v3, v4) 간 성능 차이 및 RTX 2080Ti 환경에서의 추론 시간(RTFx) 기록