일본어 TTS 데이터 전처리 및 학습 구성안

Source

  • Field Notes/ReturnZero/Daily Notes/Day 818. 2023-09-26.md

Summary

일본어 음성 합성(TTS) 모델 학습을 위한 데이터 전처리 방안과 학습 데이터셋 비율을 기록한 일지. 주요 쟁점은 데이터 정합성 유지(기존 비율 3:1 준수), 장음 처리 방식, 그리고 JK 아이디어(홀짝 어터런스에 따른 가타카나/히라가나 구분) 적용 여부이다. 또한 학습 데이터셋별 가중치(mww, japanese_address_tts 등)와 [UNK] 토큰 발생 관련 기술적 고민이 포함되어 있다.

Key Points

  • 데이터 정합성: 새 데이터 추가 없이 기존 3:1 비율 유지 검토
  • 전처리 규칙: 장음 처리는 기존 방식 그대로 적용
  • JK 아이디어: 어터런스 홀짝에 따라 가타카나(홀수)/히라가나(짝수)로 구분하는 방안
  • 학습 데이터 구성: mww_number_train_final(0.05), japanese_address_tts(0.05), common_voice_train(0.054), csj_train(0.504), etri1_train(0.126), etri2_train(0.216) 비율 설정
  • 기술적 이슈: [UNK] 토큰이 중복으로 발생하는 원인 분석 필요