일본어 주소 인식 시스템 개선 및 파인튜닝 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1682. 2026-02-06.md

Summary

일본어 음성 인식(ASR) 시스템, 특히 주소 및 건물명 인식의 정확도 향상을 위한 기술적 접근법을 다룹니다. 핵심 문제의식은 제한된 어휘(Vocab) 환경에서 오픈셋 건물명 인식의 한계와 필러(데스, 에또 등) 처리 문제입니다. 해결 방안으로 ‘코어 주소는 WFST로 고정, 건물/호실은 2-pass 또는 느슨한 규칙으로 처리’하는 하이브리드 구조를 제안하며, CTC Forced Alignment를 활용한 데이터 정제(부분 발화 크롭, 필러 스플라이스) 및 파인튜닝 로드맵을 상세히 기술합니다.

Key Points

  • 일본어 주소 인식의 구조적 한계: 문자 AM과 제한된 한자 vocab으로는 오픈셋 건물명(모르는 한자/기호) 전사가 원천적으로 어려움.
  • 추천 시스템 구조: 1-pass WFST로 코어 주소(도도부현~번지)를 정확히 디코딩한 후, 남은 오디오 tail만 별도 모델(가타카나 중심)로 건물명/호실을 인식하는 2-pass 방식.
  • 필러 처리 전략: ‘데스(です)’ 등을 전사 후 ITN에서 제거하거나, 학습 데이터에 필러를 포함시켜 숫자/번지로 오인식되는 현상(예: です→0) 방지.
  • 데이터 증강 및 정제: CTC Forced Alignment를 활용해 기존 풀 주소 오디오에서 ‘시/구’부터 시작하는 부분 발화(Partial-start) 데이터를 크롭하여 생성.
  • 파인튜닝 로드맵: 평가셋 분리(A~E) → Partial-start 데이터 생성 → 필러 포함 학습 → 호실/층수 패턴 데이터 추가 → 건물명 처리 방식(요미/목록/2-pass) 결정.
  • CTC Forced Alignment 활용: 서빙용 WFST와 별개로, 오프라인 배치 처리를 통해 프레임별 logprob를 얻어 텍스트-음성 정렬을 수행하고 세그먼트 기반 데이터 가공에 활용.