MWW 배포 회고 및 테스트 데이터셋 구성 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 949. 2024-02-05.md

Summary

2024 년 1 월 5 주 MWW(Maybe Whisper Wrapper?) 배포 성공 회고와 함께, 주소 인식 및 TTS 를 위한 통합 테스트 데이터셋 구성 방안을 정리함. 기존 데이터와 신규 수집 데이터 (4 만개) 를 혼합하여 단일 데이터셋으로 통합하고, 특정 조합 (한자 생년월일 등) 에 대한 테스트 케이스를 포함하는 전략을 수립함.

Key Points

  • MWW 배포: 개발 환경에서의 vad event 설정 테스트가 성공적이며, SIMS 헬름차트 적용도 원활함.
  • 데이터셋 통합: 날짜별 분리 유지 대신 단일 통합 데이터셋으로 전환. 반반 섞여 있던 기존 데이터 구조 정리.
  • 주소 데이터 구성: 신규 수집 데이터 중 10% 사용, 이전 데이터는 키 기반 샘플링 (랜덤 5 개) 으로 통합.
  • 테스트 데이터 구성: 한자 조합 (생년월일 포함) 케이스 강조. 비율은 새 데이터 50%, 일반 데이터 45%, TTS 5% 로 계획.
  • 데이터 소스 비율: aihub_foreign_jp, aihub_multilang_jp, csj_train 등 다국어/일본어 코퍼스 혼합 비율 명시.