Day 800: 세팅 및 ITN 워커 스펙 변경

Source

  • Field Notes/ReturnZero/Daily Notes/Day 800. 2023-09-08.md

Summary

800일차 일지로서, ITN 워커의 결과 반환 스펙 변경(msg_info 구조 평탄화)과 관련 테스트 코드 수정을 다룹니다. 또한 일본어 음성 인식 학습을 위한 wav2vec2 설정, 데이터셋 경로 변경, sampling 확률 조정 및 평가용 sommers-e2e 데이터셋 준비 사항을 기록하고 있습니다.

Key Points

  • ITN 워커 스펙 변경: msg_info 하위 msg/words를 상위로 이동
  • 관련 테스트 코드 및 데이터 수정 필요 (dadumi, vito-worker)
  • 일본어 학습 환경 설정: rtfairseq/wav2vec 기반 finetuning
  • 데이터셋 경로 변경 및 memmap 파일 확인 필요
  • sampling_prob 조정을 통한 데이터 섞기
  • 평가용 sommers-e2e 데이터셋 및 dict.ltr.txt 생성 확인