일본어 ASR 모델 학습 및 데이터 전처리 진행 상황 (2024-07-15)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1110. 2024-07-15.md

Summary

본 노트는 2024 년 7 월 15 일의 업무 일지로, 일본어 음성 인식 (ASR) 모델 학습을 위한 데이터 전처리 및 실험 설정을 기록하고 있다. 주요 작업으로는 Mecab 토크나이저를 활용한 특수 문자 (숫자, 영어, 구분자) 처리 방식의 모델 학습, 학습/테스트 데이터셋의 날짜별 분리, 그리고 GPU 환경 설정 (gpu-operator) 준비가 포함된다. 또한 과거 MWW 프로젝트 데이터 (pickle/memmap) 의 재사용 및 시방 바 (timing bar) 적용을 통한 가독성 개선 방안도 논의하고 있다.

Key Points

  • 일본어 ASR 모델 학습: Mecab 토크나이저를 사용하여 숫자, 영어, 구분자 (|) 에 띄어쓰기를 추가한 데이터로 2 가지 모델 학습 진행
  • 데이터셋 분리: 7 월 8, 12 일 데이터와 7 월 9-11 일 데이터를 각각 학습 및 테스트 세트로 분리하여 실험
  • 환경 설정: 가독성 개선을 위한 24.06 모델 준비 및 NVIDIA gpu-operator 이미지 다운로드 및 설정
  • 과거 데이터 재활용: 이전 MWW 프로젝트 데이터 (pickle 파일) 를 memmap 으로 변환하며 구분자 (|) 추가 및 시방 바 적용을 통한 출력 형식 개선 검토
  • 향후 계획: 일본어 학습 실행, 가독성 중점 작업, GPU 환경 최종 설정