일본어 음성 전사 파이프라인 설계 및 고려사항

Source

  • Field Notes/ReturnZero/Daily Notes/Day 991. 2024-03-18.md

Summary

일본어 음성 전사(Whisper 활용) 파이프라인 구축을 위한 핵심 단계(다운샘플링, VAD 세그먼테이션, 데이터셋 생성)와 처리 로직(다운로드/전사 디커플링, 완료 판정 기준)에 대한 초기 검토 사항.

Key Points

  • Whisper 기반 일본어 전사 파이프라인 구성 요소: 오디오 전처리(다운샘플링), VAD 세그먼테이션, BMT 실행
  • 데이터 파이프라인 설계: 다운로드와 전사 과정의 디커플링 필요성 확인
  • 품질 관리 이슈: 자막 신뢰도 기준 설정 및 ‘완료(finished)’ 상태 판정의 미흡함(중복/중단 처리 문제)
  • 기존 시스템(Vito Flywheel)과의 유사성 재확인