일본어 주소 인식 시스템 개선 및 파인튜닝 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1681. 2026-02-05.md

Summary

본 노트는 일본어 음성 인식(ASR) 시스템, 특히 주소 및 건물명 인식의 정확도 향상을 위한 기술적 접근법을 다룹니다. 핵심 문제의식은 제한된 어휘(Vocab) 환경에서 오픈셋 건물명과 필러(데스, 에또 등)를 처리하는 구조적 한계입니다. 이를 해결하기 위해 WFST 기반의 코어 주소 인식과 가타카나/호실 인식의 분리(2-pass 구조)를 제안하며, CTC 강제 정렬(Forced Alignment)을 활용한 데이터 증강(부분 발화 크롭, 필러 스플라이스) 및 파인튜닝 로드맵을 상세히 기술합니다.

Key Points

  • 일본어 주소 인식의 구조적 한계: 문자 기반 AM과 제한된 한자 어휘로 인해 오픈셋 건물명(고유명사)의 정확한 전사는 원천적으로 어려움.
  • 시스템 구조 제안: 코어 주소는 WFST로 고정하고, 건물명/호실은 2-pass 방식이나 느슨한 제약으로 처리하는 하이브리드 구조 권장.
  • 데이터 증강 전략: CTC 강제 정렬을 통해 ‘시/구’부터 시작하는 부분 발화(Partial-start) 데이터와 필러가 포함된 데이터를 대량 생성하여 모델 학습.
  • 필러 처리 방식: ‘데스(です)’ 등을 전사 후 ITN(Inverse Text Normalization) 단계에서 제거하거나, 학습 시 라벨 포함하여 숫자 오인식 방지.
  • CTC 강제 정렬 활용: 서빙용 WFST 디코딩과 별개로, 오프라인 배치 처리를 통해 프레임별 확률을 기반으로 텍스트-음성 정렬 및 데이터 크롭 수행.