ReturnZero Day 1047: 일본어 ASR 모델 검증 및 성능 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1047. 2024-05-13.md

Summary

2024-05-13 일일 업무 노트로, 일본어 음성 인식(ASR) 모델(alphanumber_v9, V5 등)의 검증 결과를 기록하고 있다. 다양한 테스트셋(TEDxJP, mww_test, qoo10 등)에 대한 CER, WER, SER, RTFx 지표를 비교 분석했으며, 특히 qoo10 테스트셋에서 TensorRT(TRT) 변환 시 성능이 급격히 저하되는 현상(VAD 이슈 의심)을 확인했다. 향후 데이터셋 검증 및 Sommer 모델을 활용한 전사 검증을 개선 방안으로 제시했다.

Key Points

  • 일본어 ASR 모델(alphanumber_v9, V5)의 성능 지표(CER, WER, SER, RTFx) 비교 검증 진행
  • 테스트셋별 성능 편차 확인: mww_test(히라가나)는 CER 3.216.89%, TEDxJP는 CER 16.8919.25% 수준
  • qoo10 테스트셋에서 TensorRT(TRT) 변환 시 성능 급락(CER 90.06%) 현상 발생, VAD 이슈 의심
  • 향후 개선 방안: 데이터셋 검증 강화 및 Sommer 모델 기반 전사 결과 검증 계획
  • pronaia-engine 필터 관련 테스트 코드 개발 필요성 언급