VTS201020 데이터셋의 압축 포맷 및 배치 크기에 따른 CER 불안정성 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 344. 2022-06-09.md

Summary

이 노트는 VTS201020 데이터셋 평가 시 FLAC/OGG 압축 포맷과 처리 배치 크기(batch size)에 따라 Character Error Rate(CER)이 비정상적으로 변동하는 현상을 기록하고 있다. 저자는 동일한 데이터셋에서 포맷과 배치 크기를 변경하며 실험을 반복했으나, CER 값이 일관되지 않고 출렁이는 문제를 확인했다. 특히 배치 크기 300 이상에서 이상 현상이 두드러졌으며, 재실행 시 결과가 달라지는 등 재현성(reproducibility) 문제가 있음을 인지했다. 이는 단순한 성능 차이가 아닌, 파이프라인 내 포맷 처리나 VAD(Voice Activity Detection) 관련 버그 가능성을 시사하는 문제 인식 단계의 기록이다.

Key Points

  • VTS201020 벤치마크에서 FLAC와 OGG 포맷 간 CER 성능 차이가 명확하지 않고, 배치 크기(30, 100, 300, 600)에 따라 값이 비정상적으로 변동함.
  • 배치 크기 300 이상에서 CER 값이 급변하거나 포맷 간 우위 관계가 뒤바뀌는 등 재현성 없는 결과 발생.
  • 동일 조건 재실행 시 결과가 달라지는 현상으로 인해, 단순 모델 성능 이슈가 아닌 데이터 파이프라인(압축/디코딩/VAD)의 잠재적 버그를 의심함.
  • Docker 네트워크 연결 설정 등 인프라 관련 작업도 병행 기록됨.