3i4k 모델 평가 메트릭 학습 및 Pronaia 클라이언트 전사/압축 이슈 해결

Source

  • Field Notes/ReturnZero/Daily Notes/Day 343. 2022-06-08.md

Summary

이 노트는 3i4k 프로젝트에서 멀티클래스 분류 모델의 평가 지표(Accuracy, Precision, Recall, F1, EM, Pearson/Spearman 상관관계)의 정의와 한계, 특히 데이터 불균형 시 Accuracy/Recall의 왜곡 문제를 학습한 내용을 담고 있다. 또한 Pronaia 클라이언트에서 오디오 파일(wav)의 utterance 단위(start, end, duration) 기반 자르기 기능 부재로 인한 전사 오류와 압축 포맷 변경(flac -> ogg), tempfile 활용 등 코드 개선 사항을 기록하고 있다. 최종적으로 KLUE STSB 및 Accuracy/F1/Recall/Precision 점수를 산출하여 다음 단계(VTS 데이터셋 검토)로 연결하는 과정이다.

Key Points

  • 3i4k 모델 평가 시 Batch 처리의 한계: Prediction/Reference만 가능하나, F1 등 멀티클래스 평균화(macro/micro)는 Compute 단계에서 처리 필요.
  • 평가 지표 학습: Accuracy는 클래스 불균형 시 왜곡될 수 있으며, Precision/Recall은 Trade-off 관계. F1은 조화평균. EM은 완전 일치 측정.
  • 상관관계 계수: Pearson은 선형 상관관계(이상치 민감), Spearman은 비선형 상관관계. KLUE STSB는 이 둘을 사용.
  • Pronaia 클라이언트 버그 수정: Wav 파일 레코드 단위와 Utterance 단위(start/end/duration) 불일치로 인한 자르기 실패 문제 해결.
  • 코드 개선: 오디오 압축 포맷을 FLAC에서 OGG로 변경 및 Python tempfile 모듈 활용을 통한 임시 파일 처리 최적화.
  • 실험 결과: KLUE STSB(Pearson 0.759, Spearman 0.821), Accuracy 0.903, F1 0.827 등 초기 멀티카테고리 스탭 결과 도출.