2025-01-17 업무: 일본어 STT 벤치마크 및 VAD 튜닝

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1297. 2025-01-17.md

Summary

2025년 1월 17일 업무 기록으로, 일본어 음성 인식(STT) 모델의 성능 벤치마킹과 파이프라인 설정 최적화가 주요 내용이다. 2080Ti와 3090 GPU 환경에서 다양한 일본어 테스트셋(hiragana, TEDxJP, CSJ 등)에 대해 CER, WER, SER 지표를 측정했다. 특히 WER(단어 오류율)이 99% 이상으로 매우 높게 나오는 현상이 관찰되었으며, 이는 단어 경계 처리나 평가 기준의 특수성으로 추정된다. 또한 팀벨 문의에 대응하여 VAD(Voice Activity Detection)의 active threshold를 기본값 0.95에서 0.88로 낮추어 해결하는 튜닝 과정을 기록하고 있다. 파이프라인 설정 파일(values.yaml)의 템플릿화(Jinja)와 커밋 전략에 대한 고민도 포함되어 있다.

Key Points

  • 일본어 STT 모델 성능 벤치마크: 2080Ti/3090 환경에서 hiragana, TEDxJP, CSJ, CommonVoice 등 다양한 데이터셋 테스트 진행.
  • 성능 지표 특징: CER(문자 오류율)은 3~29% 범위이나, WER(단어 오류율)은 거의 모든 테스트셋에서 99% 이상으로 극단적으로 높게 측정됨.
  • VAD 튜닝 사례: 팀벨 문의 건으로 VAD active threshold 이슈 확인. 기본값 0.95에서는 인식 실패, 0.88로 낮추어 해결.
  • 파이프라인 개선 계획: values.rtzr-stt.yaml을 Jinja 템플릿으로 변환하여 online pipeline config 외부화 및 설정 관리 용이성 확보 목표.
  • 기타 업무: 스크립트 결과 확인 및 점진적 커밋, pronaia 요약 기능 리뷰, python batch transcriber 관련 링크 참조.