2026-01-29 업무: 일본어 ASR 모델 개선 및 제로원 데이터 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1674. 2026-01-29.md

Summary

본 노트는 2026 년 1 월 29 일의 업무 기록으로, 주요 초점은 일본어 ASR(음성인식) 모델의 성능 개선과 제로원 프로젝트의 데이터 처리 이슈 해결이다. 일본어 모델 측면에서는 ‘데스 (desu)‘와 같은 종결어미의 전사 및 ITN(Inverse Text Normalization) 단계에서의 제거 전략 변경, 필러 (filler) 처리, 주소 및 번지수 인식 개선, 그리고 가타카나 전사 모델 개발을 핵심 과제로 삼고 있다. 또한 짧은 발화 및 잡담 혼입 음성 데이터셋 생성을 위한 augmentation 전략과 실행 스크립트를 기록하고 있다. 제로원 프로젝트에서는 데이터 생성 속도의 저하와 품질 필터링 결과 (suspect/lowquality rows) 에 대한 문제점을 확인하고, 설날 연휴 전 전략 수립의 필요성을 제기한다. 두나무 프로젝트는 개발계 복구와 인스턴스 업데이트가 완료된 상태이다.

Key Points

  • 일본어 ASR 모델 개선: ‘데스’는 전사 후 ITN 에서 제거하는 방식으로 전략 변경, 필러 문제 해결, 주소/번지수 인식 개선, 가타카나 전사 모델 개발.
  • 데이터셋 구축: 짧은 발화/잡담 혼입 음성을 위한 augmentation(오디오 겹치기, 세그먼테이션 단위 결합) 전략 수립 및 shortextractor 기반 데이터셋 생성 스크립트 기록.
  • 제로원 프로젝트 이슈: 데이터 생성 속도 저하 (0.35 rows/sec) 및 품질 필터링 결과 (suspect_unchanged, lowquality_rows 다수) 확인, 설날 전 전략 재수립 필요성 인지.
  • 두나무 프로젝트: 개발계 복구 및 인스턴스 업데이트 완료, 운영계 작업은 1/29 에 진행.
  • 한국어 짧은 발화 훈련 및 일본어 킥오프 미완료 사항 확인.