Day 901. 2023-12-18

Source

  • Field Notes/ReturnZero/Daily Notes/Day 901. 2023-12-18.md

Summary

2023년 12월 18일(901일차)의 작업 기록으로, 일본어 음성 인식 모델의 성능 평가(mel2vec vs 기존)와 관련 실행 설정을 다룹니다. 또한 1월부터 12월까지의 주요 프로젝트(NLP4STT, 통합ITN ‘다듬이’, 일본어 모델 개발 및 PoC) 진행 상황을 월별 요약하며, mel2vec의 기술적 구현 방식과 디버깅 계획을 메모했습니다.

Key Points

  • 일본어 음성 인식 모델 테스트 결과, mel2vec 기반 모델이 기존 wav2vec 대비 성능 우위 확인
  • mel2vec 인코더 컴파일 및 디코딩 실행을 위한 VS Code launch 설정(json) 기록
  • 2023년 연간 프로젝트回顧: NLP4STT 패키징, 통합ITN(‘다듬이’) 개발 및 배포, 일본어 모델 학습/재학습 및 PoC(현대캐피탈, 미래에셋 등) 진행
  • mel2vec의 기술적 원리: MelScale 필터뱅크와 스펙트로그램의 행렬곱 연산 방식 메모
  • 향후 계획: TRT 모델 빌드, pronaia-engine 디버그 환경 구축 및 소규모 데이터셋 테스트