ReturnZero Day 1118: 음성 인식 전사 오류 및 WFST 디코더 호환성 문제

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1118. 2024-07-23.md

Summary

2024-07-23 업무 기록으로, qoo10 음성 전사 모델의 오작동 원인을 32bit 오디오 데이터와 linear16 타입의 호환성 문제로 규명하고 Python 클라이언트에서의 샘플 너비 변환을 해결책으로 제시함. 또한 WFST 디코더의 ONNX 모델 로드 실패 문제를 다양한 빌드 환경(Windows/Zarya, 23.02/24.06 버전) 간의 조합 테스트를 통해 재현 및 분석 중임.

Key Points

  • qoo10 전사 모델 오류: 32bit precision 오디오 데이터가 linear16 타입을 처리하지 못해 발생
  • 해결 방안: Python client에서 AudioSegment를 사용해 샘플 너비를 2(16bit)로 강제 변환
  • WFST 디코더 문제: ONNX 모델 shape 수신 실패 및 로드 불가 현상
  • 환경 변수 분석: Windows/Zarya 빌드 환경과 ONNX 모델 버전(23.02 vs 24.06) 조합에 따른 로드 성공/실패 패턴 확인
  • 현재 상태: 빌드 환경(23.02 기준) 재설정 및 가독성 개선 작업 진행 중