일본어 ASR 파인튜닝 준비 및 코드 수정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 768. 2023-08-07.md

Summary

이 노트는 일본어 음성 인식(ASR) 모델 파인튜닝을 위한 데이터셋 준비 및 하이퍼파라미터 설정 계획을 기록한 작업 일지이다. 주요 내용으로는 pronaia 엔진의 MsgInfo 타입에 timestamp 필드 추가, AIHub Foreign 및 CSJ 등 일본어 데이터셋의 전처리(merge_utterance_under 적용 등), 그리고 sommers-e2e 프레임워크 내 wav2vec2 기반 Conformer 모델의 학습 설정(config) 구성이 포함된다. 특히 mmap 기반 데이터셋 생성 및 사전학습 모델 경로 확인 등 구체적인 실행 단계와 미정항목이 나열되어 있다.

Key Points

  • pronaia 및 pronaia-engine의 MsgInfo 구조체에 timestamp 필드 추가 작업 진행
  • 일본어 ASR 파인튜닝을 위한 데이터셋(AIHub Foreign, CSJ, pysommers) 준비 및 전처리 계획
  • sommers-e2e 프레임워크 기반 wav2vec2 Conformer 모델의 학습 설정(config) 구성
  • 히라가나/가타카나별 모델 아키텍처 설정 및 사전학습 모델 경로 확인 필요
  • mmap 형식 데이터셋 생성(export_dataset_memmap) 및 학습 환경 설정