Day 1055: 전사 품질 필터링 및 Triton E2E 디코딩 오류 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1055. 2024-05-21.md

Summary

1,045만 건 전사 데이터 중 CER 0.5 미만(약 329만 건)을 필터링하며, 실시간 전사(pronaia) 사용이 품질 저하 원인으로 추정됨. 일본어 오디오 데이터(약 5,000시간) 다운로드 및 처리 중 Triton 기반 E2E 디코딩 시 ‘zero-dimensional arrays cannot be concatenated’ 오류 발생. VAD 우회 및 Triton 클라이언트(tritony) 설정 문제 의심하며, sommers-e2e 파이프라인 수정 필요성 확인.

Key Points

  • 전사 데이터 필터링: 총 1,045만 건 중 CER 0.5 미만 329만 건 선별. 실시간 전사(pronaia) 사용으로 인한 품질 저하 가능성 제기.
  • 데이터셋 현황: japanese-anime-speech, reazonspeech 등 다운로드 완료. 총 오디오 길이 약 5,000시간(1,799만 초) 확인.
  • 디코딩 오류: Triton 기반 E2E 모델 추론 시 numpy 배열 연결 오류(ValueError) 반복 발생. tritony 라이브러리 또는 입력 데이터 형식 문제 의심.
  • 해결 방향: VAD 없이 직접 Triton 호출 테스트, sommers-e2e 파이프라인 수정, 20초 모델 준비 및 환경 변수(TRITON_URL) 설정 검토.