일본어 주소 인식 시스템 개선 및 데이터 파이프라인 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1685. 2026-02-09.md

Summary

본 노트는 일본어 주소 인식 시스템의 성능 개선을 위한 기술적 접근법을 다룹니다. 핵심 문제의식은 ‘데스(desu)’, ‘필러(filler)’, ‘가타카나’, ‘번지수/호실’ 등 복잡한 발화 요소로 인한 인식 오류를 해결하고, 오픈셋 건물명 처리의 구조적 한계를 극복하는 것입니다. 주요 해결 방안으로 WFST 기반 코어 주소 디코딩과 별도 처리를 결합한 2-pass 구조를 제안하며, CTC 강제 정렬(Forced Alignment)을 활용한 부분 발화 데이터 생성, 필러 포함 학습, 패턴 기반 합성 데이터 생성 등의 파인튜닝 로드맵을 제시합니다. 또한 Triton 서빙 환경에서의 로그아웃 추출 및 오프라인 정렬 프로시저에 대한 실전 가이드를 포함합니다.

Key Points

  • 일본어 주소 인식의 주요 개선 대상: 데스(종결어미) 전사 후 ITN 제거, 필러 처리, 가타카나 모델 개발, 번지수/호실 구분
  • 오픈셋 건물명 인식의 구조적 한계: 제한된 한자 vocab으로 인한 미지 문자 출력 불가 문제
  • 추천 시스템 구조: 코어 주소는 WFST로 고정하고, 건물명/호실은 2-pass 방식으로 별도 디코딩하거나 패턴 제한 적용
  • 데이터 생성 전략: CTC 강제 정렬을 활용한 부분 발화(Partial-start) 데이터 크롭, 필러 스플라이스 학습, TTS 기반 호실/층수 패턴 데이터 생성
  • CTC 강제 정렬의 역할: 인식 대체가 아닌, 텍스트-음성 시간 정렬을 통한 데이터 증강 및 평가용 세그먼트 생성 도구
  • 실전 프로시저: Triton에서 logits 추출 후 Python 기반 DP 알고리즘(Viterbi 등)을 이용한 오프라인 정렬 및 세그먼테이션