2026-01-30 업무: 일본어 ASR 개선, 제로원 데이터 처리, 두나무 인프라 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1675. 2026-01-30.md

Summary

본 노트는 2026년 1월 30일의 업무 기록으로, 주요 3가지 프로젝트의 진행 상황과 이슈를 다룹니다. 첫째, 일본어 ASR 모델 개선(주소, 번호, 가타카나)을 위해 ‘데스(desu)’ 전사 전략 변경 및 데이터 정제 계획을 수립했습니다. 둘째, 제로원 프로젝트의 데이터 처리 스크립트 성능 저하(0.35 rows/sec)와 품질 이슈를 확인하고 설날 전 일정 조율 필요성을 제기했습니다. 셋째, 두나무 EKS 환경에서 EFS CSI 권한 부족으로 인한 PVC 생성 실패 문제를 로컬 PVC로 우회 처리했으며, LLM 생산성 연구(METR)에 대한 소감 및 컨텍스트 관리 전략을 정리했습니다.

Key Points

  • 일본어 ASR 모델 개선: 주소/번호 모델의 ‘데스’ 처리 방식을 전사 후 ITN 삭제로 변경, 가타카나 전사 모델 개발 및 짧은 발화 데이터셋 생성 계획
  • 제로원 프로젝트: 데이터 처리 스크립트 성능 저하(0.35 rows/sec) 및 품질 리트라이 행 수 증가 이슈 확인, 설날 전 일정 조율 필요
  • 두나무 인프라: EKS 환경에서 EFS CSI 권한 누락으로 PVC 생성 실패, 임시로 로컬 스태틱 PVC 사용 및 향후 권한/CSI 설치 계획 수립
  • LLM 생산성 고찰: METR 연구 기반 생산성 역설(리뷰 증가로 인한 상쇄), 컨텍스트 윈도우 효율성(40% 이하 유효), 3단계 워크플로우(리서치-플랜-구현) 제안