일본어 STT 모델 벤치마킹 및 인프라 작업 기록 (2025-01-14)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1294. 2025-01-14.md

Summary

2025 년 1 월 14 일의 업무 기록으로, 일본어 음성 인식 (STT) 모델의 성능 벤치마킹과 관련 인프라 설정 작업이 주를 이룹니다. 주요 내용은 wfst, prefix, greedy 세 가지 디코딩 전략을 적용한 모델의 CER/WER/SER 성능 비교 결과, GitLab/Minio 업로드 오류 및 리베이스 작업, 파일 수정 시 로그 및 백업/디프 저장 규칙 정의, 그리고 일본어 모델 디렉토리 생성 및 docker-compose 설정 수정 등이 포함됩니다.

Key Points

  • 일본어 STT 모델 벤치마킹: wfst, prefix, greedy 방식의 디코딩 전략에 대해 mww, qoo10, TEDxJP, aihub, csj, commonvoice 등 다양한 테스트셋에서 CER, WER, SER, RTFx 지표를 측정하고 비교함.
  • 인프라 및 버전 관리: GitLab/Minio 업로드 실패 문제 해결 시도, git 리베이스 작업 진행, nodeaffinity 등 인프라 프로파일 검토.
  • 작업 표준화: 파일 수정 전후의 터미널 로그 기록, 백업, diff 저장에 대한 표준화된 쉘 스크립트 규칙 정의.
  • 모델 배포 설정: triton-models 하위 일본어 모델 디렉토리 생성, 기존 베이스 모델 복사, docker-compose.jpn.yaml 수정을 통한 stt-deploy 작업 진행.