Qoo10 전사 오류 원인 분석 및 카타카나 모델 벤치마크

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1050. 2024-05-16.md

Summary

Qoo10 전사 데이터에서 WER 99% 이상이라는 심각한 오류가 발생했으나, 이는 오디오 데이터의 32bit 정밀도가 linear16 타입과 호환되지 않아 발생한 기술적 문제임이 확인됨. Python 클라이언트에서 샘플 너비를 2byte로 강제 변환하여 해결. 또한 다양한 카타카나(Katakana) 음성 인식 모델(mww_test 시리즈)에 대한 벤치마크 결과를 기록했으며, mww_test_240307_katakana 모델이 CER 2.49%, WER 6.88%로 가장 우수한 성능을 보임. use_dynamic_shape 옵션은 존치하기로 결정.

Key Points

  • Qoo10 전사 실패 원인: 오디오 데이터 32bit precision과 linear16 타입의 불일치
  • 해결 방안: Python client에서 AudioSegment.set_sample_width(2)를 통해 16bit로 강제 변환
  • 카타카나 모델 벤치마크: mww_test_240307_katakana 모델이 CER 2.49%, WER 6.88%로 최상위 성능
  • 기타 모델(mww_test_240205, 0915, 0911)은 CER 1019%, WER 2579% 수준으로 상대적으로 낮은 성능
  • 기술 결정: use_dynamic_shape 옵션 유지(존치) 합의