일본어 주소 인식 시스템 개선 및 데이터 파이프라인 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1686. 2026-02-10.md

Summary

본 노트는 일본어 음성 인식(ASR) 시스템, 특히 주소 및 건물명 인식의 정확도 향상을 위한 기술적 접근법을 다룹니다. 핵심 문제의식은 제한된 어휘(Vocab) 환경에서 오픈셋 건물명 인식의 한계와 필러(데스, 에또 등) 처리 문제입니다. 해결 방안으로 WFST 기반의 코어 주소 인식과 가타카나 중심의 건물명 인식을 분리하는 2-pass 구조를 제안하며, CTC 강제 정렬(Forced Alignment)을 활용한 부분 발화 데이터 생성 및 필러 스플라이스 학습 로드맵을 제시합니다.

Key Points

  • 일본어 주소 인식의 구조적 한계: 문자 AM과 제한된 한자 어휘로는 오픈셋 건물명(고유명사)의 정확한 전사가 원천적으로 어려움.
  • 시스템 구조 제안: 코어 주소는 WFST로 고정하고, 건물명/호실은 2-pass 방식으로 느슨하게 디코딩하거나 패턴 기반 규칙으로 처리하는 하이브리드 구조 권장.
  • 데이터 증강 전략: CTC 강제 정렬을 통해 기존 풀 주소 오디오에서 ‘시/구’부터 시작하는 부분 발화(Partial-start) 데이터를 크롭하여 생성.
  • 필러 처리 개선: ‘데스(です)’ 등을 전사 후 ITN에서 제거하는 방식으로 변경하며, 필러를 포함한 오디오 스플라이스 데이터를 학습시켜 숫자 오인식(예: です→0) 방지.
  • CTC 강제 정렬의 역할: 인식이 아닌 ‘텍스트-음성 시간 정렬’ 도구로 사용하며, 서빙 중인 AM 모델의 로짓(Logit)을 활용해 오프라인 배치 처리로 세그먼트 경계 추출.
  • 평가 체계 분리: 풀 주소, 부분 시작, 필러 포함, 호실/건물명 포함 등 테스트셋을 세분화하여 성능 향상의 착시를 방지하고 정확한 평가 진행.