일본어 음성 인식 파인튜닝: 문자셋 재정의 및 데이터 혼합 비율 조정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1563. 2025-10-10.md

Summary

2025-10-10 일자 업무 노트로, 일본어 음성 인식 모델 파인튜닝을 위한 데이터 전처리 및 실험 설정 변경 사항을 기록함. 주요 내용은 1) dict.ltr.txt 문자셋을 알파벳, 숫자, 대시, 괄호, 바(|)로 구성하여 슬래시는 제외하고 괄호는 발음 존재 이유로 포함함(총 40자), 2) CER 0.5 이하 데이터로 필터링, 3) 4가지 데이터셋(mww_alphanumber/number 계열)의 혼합 비율을 0.35/0.25/0.1/0.3으로 설정하여 GPU 8개 환경에서 실험을 재개함. 이전 설정으로 복귀하며 삽질 과정을 언급함.

Key Points

  • 문자셋(dict.ltr.txt) 재정의: 알파벳 26 + 숫자 10 + 대시 1 + 괄호 2 + 바 1 = 총 40자. 슬래시 제외, 괄호 포함(발음 고려).
  • 데이터 필터링: CER 0.5 이하인 데이터만 선별하여 사용.
  • 데이터 혼합 비율 조정: mww_alphanumber_231215(0.35), mww_number_231215(0.25), mww_alphanumber_240605(0.1), mww_alphanumber_251009(0.3).
  • 실험 환경: GPU 8개, 기존 설정(v6.yaml)으로 복귀하여 실행.