2026-01-28 업무: 일본어 ASR 모델 개선 및 데이터셋 구축

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1673. 2026-01-28.md

Summary

본 노트는 일본어 음성인식(ASR) 모델, 특히 주소 및 번호 인식 성능 개선을 위한 데이터셋 구축과 전처리 전략을 다룬다. 주요 과제로는 ‘데스(desu)‘와 같은 간투어 처리 방식 변경(전사 후 ITN 제거), 짧은 발화 및 잡음 혼입 데이터 증강, 그리고 WFST 디코더의 그래프 구조 개선을 통한 중간/끝단위 주소 발화 대응이 포함된다. 또한 제로원 프로젝트의 데이터 처리 속도 이슈와 두나무 인스턴스 업데이트 일정도 언급된다.

Key Points

  • 일본어 주소 모델 개선: 기존 모델이 취약한 중간/끝단위 주소 발화, 번지수, 건물명/호실 인식 강화.
  • 간투어(‘데스’) 처리 전략 변경: 기존 무시 방식에서 ‘전사 후 ITN(Inverse Text Normalization) 단계에서 제거’ 방식으로 전환 검토.
  • 데이터셋 구축 및 정제: 주소 관련 오디오 데이터의 pysommers 포맷 변환, TTS 합성 데이터 생성, 짧은 발화/잡음 혼입 데이터 증강.
  • 기술적 접근: WFST 디코더 그래프 수정을 통한 발화 시작점 유연성 확보, Kaldi TLG 형식 코퍼스 구성.
  • 기타 업무: 제로원 프로젝트 데이터 처리 속도 저하(0.35 rows/sec) 확인, 두나무 인스턴스 업데이트 일정(1/29 운영계 작업) 관리.