3i4k VTS 데이터 전처리 및 BMT 음성 전사 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 348. 2022-06-13.md

Summary

2022-06-13 일기. 3i4k 프로젝트에서 VTS 데이터(약 200만 건)를 KLUE-RoBERTa로 추론하는 과정에서 처리 속도 지연(약 6시간 예상)과 정규화(이중전사, 기호 제거) 필요성을 확인함. 또한 BMT 프로젝트에서 프로나이아 엔진의 FLAC 포맷 음성 파일 후미 전사 실패 버그를 발견함. Action Item Detection 논문을 읽다가 Transformer/BERT 이해 부족으로 기초 학습으로 퇴각해야 함을 자각함.

Key Points

  • 3i4k VTS 데이터 추론: 200만 건 처리에 6시간 이상 소요 예상, 정규화 전처리 필요성 대두
  • BMT 음성 전사 버그: 프로나이아 엔진에서 FLAC 포맷 파일의 뒷부분 전사 실패 현상 확인
  • 학습 방향 전환: Action Item Detection 논문 읽기 중 Transformer/BERT 이해도 부족으로 기초 학습 필요성 인식
  • 워크샵 준비: NER, Speech Act Recognition, Action Item Detection 등 관련 자료 정리