일본어 주소 인식 시스템 개선 및 데이터 파이프라인 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1687. 2026-02-11.md

Summary

본 노트는 일본어 음성 인식(ASR) 시스템, 특히 주소 및 건물명 인식의 정확도 향상을 위한 기술적 접근법을 다룹니다. 핵심 문제의식은 제한된 어휘(Vocab) 환경에서 오픈셋 건물명 인식의 한계와 필러(데스, 에또 등) 처리 문제입니다. 해결 방안으로 WFST 기반의 코어 주소 인식과 가타카나 중심의 건물명 인식을 분리하는 2-pass 구조를 제안하며, CTC 강제 정렬(Forced Alignment)을 활용한 부분 발화(Partial-start) 데이터 생성 및 필러 스플라이스 학습 로드맵을 제시합니다.

Key Points

  • 일본어 주소 인식의 구조적 한계: 문자 AM과 제한된 한자 어휘로는 오픈셋 건물명(고유명사)의 정확한 전사가 원천적으로 어려움.
  • 시스템 구조 제안: 코어 주소는 WFST로 고정하고, 건물명/호실은 2-pass 방식으로 느슨하게 디코딩하거나 패턴 기반으로 처리하는 하이브리드 구조 권장.
  • 데이터 증강 전략: CTC 강제 정렬을 통해 기존 풀 주소 오디오에서 ‘시/구’부터 시작하는 부분 발화(Partial-start) 데이터를 크롭하여 생성.
  • 필러 처리 개선: ‘데스(です)’ 등을 전사 후 ITN에서 제거하는 방식으로 변경하며, 필러를 포함한 라벨 학습을 통해 숫자 오인식(예: です→0) 방지.
  • 기술적 구현: Triton 서빙 환경에서 AM의 Logits를 추출해 오프라인 배치로 CTC 강제 정렬을 수행하고, 이를 데이터 정제 및 pysommers 화에 활용.