2023-09-07 작업 기록: 일본어 ASR 모델 학습 및 MWW 업무

Source

  • Field Notes/ReturnZero/Daily Notes/Day 799. 2023-09-07.md

Summary

2023 년 9 월 7 일의 작업 일지로, 일본어 음성 인식 (ASR) 모델 학습을 위한 데이터 전처리 (qoo10 데이터셋, CER 기준 필터링) 및 sommers-e2e 환경 설치를 기록하고 있다. 또한 MWW 프로젝트 관련 일본어 NAME 모델 준비 및 한국어 ingress 설정 논의 사항을 포함한다.

Key Points

  • 일본어 ASR 학습 데이터셋 구축: qoo10 데이터셋 기반, CER 20 이하 샘플 선별, pysommers/raw 데이터 생성 및 run_decode 실행
  • 학습 환경 설정: sommers-e2e 및 pysommers 설치, aihub 및 alphanum 기준에 따른 데이터 수정 (@ 문자 무효화 등)
  • MWW 프로젝트 진행: 일본어 NAME 모델 준비 (경로 기록), 한국어 ingress 설정 논의 (추가 피드백 대기 중)