Whisper Dadumi 대응 및 언어 정보 처리

Source

  • Field Notes/ReturnZero/Daily Notes/Day 840. 2023-10-19.md

Summary

이 노트는 Whisper 및 Sommers 모델의 출력에 한국어/영어 언어 정보를 추가하고, 이를 Dadumi 시스템에서 분기 처리하기 위한 작업 흐름을 논의한다. 현재 시스템이 record 단위로 동작하는 반면 언어는 utterance(turn) 단위라는 불일치를 해결하기 위해 run() 함수를 task()로 변경하고, reco_df를 언어별로 그룹화하는 방안을 모색한다. 또한 일본어 학습 데이터의 과적합 가능성(데이터 부족 및 스크립트 중복)에 대한 Dan의 추론을 기록한다.

Key Points

  • Whisper/Sommers worker 출력에 언어 정보(ko/en) 추가 및 diarization worker에서 보존
  • Dadumi에서 모델 및 언어 정보를 활용한 분기 로직 구현
  • 시스템 구조 변경: record 단위 처리(run)에서 utterance/turn 단위 처리(task)로 전환 고려
  • 언어별 mergeable 조건 정의 (en/ko는 mergeable, 기타는 not mergeable)
  • 일본어 학습 데이터의 과적합 우려: 소량 데이터 및 높은 스크립트 중복률(고유 스크립트 비율 낮음)