2026-01-26 업무: 제로원 준비 및 일본어 ASR 개선

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1671. 2026-01-26.md

Summary

본 노트는 2026 년 1 월 26 일의 업무 기록으로, ‘제로원’ 프로젝트의 정례 회의 준비 (프롬프트 관리, 데이터셋 선별) 와 일본어 ASR 모델 개선 (주소, 번호, 가타카나, 데스/필러 처리) 이 주요 화제이다. 또한 두나무 인스턴스 업데이트 일정과 짧은 발화 데이터셋 생성 작업이 포함되어 있다.

Key Points

  • 제로원 프로젝트: 매월 마지막 주 화요일 정례 회의 준비 중. 프롬프트 관리의 중요성 재인식 및 배치 처리 방식 채택. AIHUB 의 한국어 대화/기계독해 데이터셋 선별 진행.
  • 일본어 ASR 개선: 주소 및 번호 모델 개선, 가타카나 전사 모델 개발 계획. ‘데스 (Death)‘음성의 전사 후 ITN 에서 제거하는 방식으로 정책 변경. 필러 처리 문제 해결 필요.
  • 데이터 엔지니어링: 짧은 발화/잡담 혼입 음성 데이터셋 생성을 위한 augmentation 전략 (오디오 겹치기, 세그먼테이션) 수립 및 추출 스크립트 실행.
  • 운영 유지보수: 두나무 인스턴스 업데이트는 브리지텍 운영계 패치 (1/29) 일정에 맞춰 진행. Okta 이슈 및 개발계 장애 대응.