Pysommers BMT CER 계산 및 화자 구분 세미나 노트

Source

  • Field Notes/ReturnZero/Daily Notes/Day 328. 2022-05-24.md

Summary

이 노트는 pysommers 프로젝트에서 BMT(Benchmark Metric Tool)의 CER(Character Error Rate) 계산을 위한 환경 설정 및 디버깅 과정을 기록한다. 주요 작업으로는 의존성 설치(websockets), Pronaia API 인증 오류 해결, 그리고 정답지(ITN 적용 여부)와 예측 결과의 전처리 불일치로 인한 평가 오류 분석이 포함된다. 또한 시몬의 세미나 내용을 통해 화자 구분(Speaker Diarization)의 한계(전화 vs 회의실 데이터)와 최신 스피커 임베딩 기술(I-vector, x-vector, ArcFace 등)에 대한 이론적 배경을 정리한다.

Key Points

  • pysommers 환경 구축 중 evaluate_omega.py 실행 시 HTTP 401 오류 및 websockets 모듈 누락 오류 발생, 해결 과정 기록
  • CER 계산 시 정답지(ITN 적용됨)와 모델 출력(ITN 미적용)의 전처리 불일치로 인한 평가 왜곡 문제 식별
  • 화자 구분 모델이 전화 통화 데이터에 최적화되어 있어 회의실 환경에서는 성능 저하 발생
  • 스피커 임베딩 기술의 진화(I-vector -> d/x-vector) 및 ArcFace(AAM-softmax)와 같은 분류 기반 손실 함수의 중요성 학습
  • VoxCeleb 데이터셋을 활용한 모델 훈련 및 ResNet 계열 아키텍처의 성능 우위 확인