Day 1105. 2024-07-10

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1105. 2024-07-10.md

Summary

SIMS k8s 차트 업데이트 및 edlib 라이브러리 빌드/배포 작업과 함께, BMT 평가(Evaluator)를 위한 데이터 파이프라인 구축을 논의함. Whisper와 Sommers 엔진의 전사 결과 비교를 위해 입력 방식 표준화 및 데이터셋(VTS210701) 확보 방안을 검토 중이나, BMT 결과의 문자 단위 저장 방식 등 기술적 장벽과 데이터 소스 부족(일본어 유튜브셋 한정 등) 문제가 제기됨.

Key Points

  • SIMS k8s 차트 정리: 현재 버전 기준 value 업데이트 및 패키지 업로드 완료, 가독성 개선을 위해 short 옵션 추가.
  • BMT Evaluator 개선: Whisper와 Sommers 결과 비교 필요성 대두, 입력 방식 자동 인식 또는 타입 명시화 방안 모색.
  • 데이터 확보 현황: 일본어는 Whisper 유튜브셋만 존재, 한국어는 research_bmt 저장 데이터 활용 예정. VTS210701 데이터셋을 대상으로 Pronaia(Whisper/Sommers) 엔진 실험 스크립트 작성.
  • edlib 3.12 대응: 리포지토리 포크 후 meson/ninja-build 환경 구축, 빌드 및 Python binding 생성 후 PyPI(rtzr)에 업로드 완료.
  • 미해결 이슈: BMT 결과의 문자 단위 저장 방식이 비교에 부적합함, bmtdataset.name 결정 로직 불명확.