음성 언어 식별 모델 평가 및 VAD 개발 계획

Source

  • Field Notes/ReturnZero/Daily Notes/Day 874. 2023-11-22.md

Summary

2023 년 11 월 22 일 일기. SpeechFlow 의 음성 언어 식별 모델이 일본어 이름 인식에서 오류를 보이며, 특히 일본어를 한국어로 오인식하는 문제가 있음. 향후 평가 범위를 가타카나로 한정할 계획. 또한 rtboost 기반의 VAD(Voice Activity Detection) 개발을 새로운 작업으로 시작함.

Key Points

  • SpeechFlow spoken_language_identification 모델의 일본어 인식 정확도 문제 (일본어->한국어 오인식)
  • 향후 평가 전략 변경: 전체 대상 대신 가타카나만 추려 평가
  • 새로운 작업: rtboost 형태의 VAD 개발 시작