일본어 ASR 파이프라인 설정 및 실험 기록

Source

  • Field Notes/ReturnZero/Daily Notes/Day 630. 2023-03-22.md

Summary

이 노트는 일본어 음성 인식(ASR) 모델의 학습 및 디코딩 파이프라인 설정을 다루고 있다. 가타카나 전용 모델의 가중치 변환(convert_weight.py), 테스트 데이터셋 디코딩(wav2vec/run_decode.py), 그리고 알파벳 ITN(Inverse Text Normalization) 결과 검증 등 구체적인 실행 명령어와 파일 경로가 나열되어 있다.

Key Points

  • 가타카나 모델 학습 및 디코딩 파이프라인 구성
  • Fairseq 가중치 변환: checkpoint.pt -> asr.ckpt
  • 알파벳 ITN 결과 검증 및 헝가리안(Hungarian) 처리 언급
  • Qoo10 관련 언급 (맥락 불명확)