2026-02-02 업무: 일본어 ASR 모델 개선 및 제로원 데이터 처리

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1678. 2026-02-02.md

Summary

본 노트는 2026년 2월 2일의 업무 기록으로, 주요 과제로 ‘일본어 ASR 모델 개선(주소, 번호, 가타카나)‘과 ‘제로원 프로젝트 데이터 처리’를 다룬다. 일본어 모델에서는 ‘데스(desu)’ 전사 후 ITN(Inverse Text Normalization) 단계에서 제거하는 전략 변경, 필러 처리, 가타카나 전사 모델 개발 등을 논의했다. 또한 짧은 발화/잡담 혼입 음성 데이터셋 생성(NF 문제 해결)과 SpeechStack 범위 논의(현대캐피탈 등 고객사 일정 조정)가 기록되어 있다. 제로원 프로젝트는 데이터 처리 속도가 느린 문제(0.35 rows/sec)와 스크립트 검수 지연으로 인해 일정 관리에 어려움을 겪고 있음을 시사한다.

Key Points

  • 일본어 ASR 모델 개선: 주소(번지수), 번호(데스 전사 후 ITN 삭제, 필러 처리), 가타카나 전사 모델 개발
  • 짧은 발화/잡담 데이터셋: augmentation(오디오 겹치기 등)을 통한 데이터셋 생성 및 NF 문제 해결 시도
  • 제로원 프로젝트: 데이터 처리 속도 저하(0.35 rows/sec) 및 스크립트 검수 지연으로 인한 일정 압박
  • SpeechStack 범위 논의: 현대캐피탈 등 고객사와의 일정 차이(2개월 vs 4개월) 및 짧은 발화 인식 기술(Acoustic, Context 주입) 논의
  • 일정 계획: 2/22/3 데이터셋 확정, 2/42/5 훈련, 2/6 SpeechStack 논의