VAD 임계값이 이름 학습 모델 성능에 미치는 영향 실험

Source

  • Field Notes/ReturnZero/Daily Notes/Day 889. 2023-12-06.md

Summary

이 노트는 ReturnZero 프로젝트의 일일 작업 기록으로, 음성 인식(STT) 파이프라인에서 VAD(Voice Activity Detection) 설정(threshold, active_threshold)이 이름 학습 모델의 성능(CER, SER)에 어떤 영향을 미치는지 실험한 결과를 담고 있다. 특히 카타카나 이름 데이터셋에서 VAD 임계값 변경(0.8→0.7) 시 성능 지표가 유의미하게 개선되지 않음을 확인했다.

Key Points

  • VAD 설정(threshold, active_threshold) 변경이 STT 모델의 이름 인식 정확도에 미치는 영향을 검증하는 실험 진행
  • 기존 설정(threshold 0.8, active 0.99) 대비 threshold 0.7 적용 시 CER(30.58% → 30.55%)과 SER(76.48% → 76.45%)이 거의 동일하게 유지됨
  • 이름 학습 모델 돌리기, 학습 데이터 정제(| 문자 제거 등), 특허 및 설명서 작업 등 병행 업무 기록 포함
  • 특정 발화 데이터(2번 발화)가 필터링되는지 확인하기 위한 데이터셋 추적 정보 포함