ReturnZero Day 814: 일본어 모델 학습 속도 문제 및 해결

Source

  • Field Notes/ReturnZero/Daily Notes/Day 814. 2023-09-22.md

Summary

ReturnZero 프로젝트의 일본어 이름 모델 학습이 비정상적으로 느린 문제를 겪었으며, 세그먼테이션 처리로 인한 데이터 양 증가를 원인으로 추정했다. max_tokens 한도를 240만에서 80만으로 낮추어 문제를 해결하고, 남은 학습 데이터셋(mww_hiragana 등)에 대해 학습을 재개하며 사전(dict) 구축을 계획했다.

Key Points

  • 일본어 이름 모델 학습 속도 저하 문제 발생
  • 세그먼테이션 처리로 오디오 데이터 양이 증가한 것이 원인일 가능성 추정
  • max_tokens 한도를 240만에서 80만으로 조정하여 해결
  • mww_hiragana, mww_alphanum_train/test 등 남은 데이터셋 학습 재개
  • 사전(dict) 구축 필요성 확인