2025-01-06 업무 일지: 일본어 음성 데이터 소스 비교 및 파이프라인 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1286. 2025-01-06.md

Summary

본 노트는 2025 년 1 월 6 일의 업무 일지로, 일본어 음성 인식 (ASR) 을 위한 데이터 소스 (datatang, audiocorpus, transynk, laboro) 의 가격, 품질, 어노테이션 형식 차이를 비교 분석한 내용을 담고 있다. 또한 온프레미스 배치 환경 구축 (팩맨, 신한은행 SIMS), 프로나이아 (ProNaiya) 서비스의 짧은 오디오 처리 한계, 신한카드 프로젝트의 VM 관리 및 파인튜닝 설정 변경 등 다양한 기술적 이슈와 작업 내역을 기록하고 있다.

Key Points

  • 일본어 ASR 데이터 소스 비교: datatang(비쌈), audiocorpus(콜센터, 간투어/정정 어노테이션 복잡), transynk(응답 지연, 의미 불명 어노테이션 존재), laboro(TV 데이터, 대용량) 의 특징과 어노테이션 형식 (시간 표시, 문장 부호, 간투어 처리) 의 차이점 기록
  • 온프레미스 배치 및 인프라: 팩맨 프로젝트의 온프레미스 배치 우선순위 확인, 신한은행 SIMS(칵테일), 다국어 위스퍼 관련 언급
  • 프로나이아 (ProNaiya) 이슈: 20 초 이하 오디오는 title/category 만 반환되고 summary 가 비어있는 현상 확인
  • 신한카드 프로젝트 진행사항: VM 재부팅 및 qemu agent 업데이트 (오타 수정), train data(ipcc_2412_trainclean) 재로드, values 수정 후 재배포, jobmind batch 실행
  • 모델 파인튜닝 설정: finetune.yaml 의 max_update 값을 50000 으로 변경
  • 기타: 디렉토리 정리 (deployment, artifact), 업무일지 날짜 정리, 일본어 학습 시 메모리 증가 현상 (87%->90%) 관찰