VAD 임계값 튜닝 및 성능 평가 (2023-12-07)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 890. 2023-12-07.md

Summary

2023 년 12 월 7 일 일일 작업 기록으로, VAD(Voice Activity Detection) 임계값 (0.7~0.99) 변경에 따른 음성 인식 성능 (CER, SER, RTFx) 평가 결과를 포함합니다. 초기 테스트와 재실행 (‘다시’) 구간에서 데이터셋 크기 (Total) 와 오류율 (CER/SER) 이 크게 달라지는 현상이 관찰되며, 매뉴얼 작성 등 미완료 업무가 기록되어 있습니다.

Key Points

  • VAD 임계값 (0.7, 0.8, 0.95, 0.99 등) 조합에 따른 rtbench.bmt 실행 로그 기록
  • 두 가지 다른 데이터셋 크기 (Total: 27190 vs 14556) 에서 테스트가 수행됨
  • 첫 번째 데이터셋 (27190) 에서 CER 3338%, SER 6769% 대 성능 확인
  • 두 번째 데이터셋 (14556, ‘다시’ 구간) 에서 CER 66~69%, SER 98% 대로 성능이 현저히 저하됨
  • RTFx(실시간 팩터) 는 124~299 사이로 변동하며, 임계값 증가에 따라 경미한 변화 또는 안정적 유지
  • 미완료 업무: 매뉴얼 작성