일본어 주소 인식 시스템 개선 및 파인튜닝 전략

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1680. 2026-02-04.md

Summary

본 노트는 일본어 음성 인식(ASR) 시스템, 특히 주소 및 건물명 인식의 정확도 향상을 위한 기술적 접근법을 다룹니다. 핵심 문제의식은 제한된 어휘(Vocab) 환경에서 오픈셋 건물명 인식이 구조적으로 불가능할 수 있다는 점이며, 이를 해결하기 위해 ‘코어 주소는 WFST로 고정, 건물/호실은 별도 처리’하는 2-pass 구조를 제안합니다. 또한 CTC Forced Alignment를 활용한 데이터 생성(부분 발화 크롭, 필러 스플라이스) 및 파인튜닝 로드맵을 상세히 기술하고 있습니다.

Key Points

  • 일본어 주소 인식의 구조적 한계: 문자 기반 AM과 제한된 한자 어휘로는 오픈셋 건물명(고유명사)의 정확한 전사가 원천적으로 어려움.
  • 추천 시스템 아키텍처: 1-pass에서 WFST로 코어 주소를 디코딩한 후, Forced Alignment를 통해 오디오를 분할하고 Tail 부분(호실/건물명)을 별도 모델이나 느슨한 제약으로 처리하는 2-pass 방식.
  • 데이터 증강 및 정제 전략: CTC Forced Alignment를 활용하여 ‘시/구’부터 시작하는 부분 발화(Partial-start) 데이터를 크롭하고, 필러(데스, 에또 등)를 포함한 라벨 데이터를 생성하여 학습.
  • 필러 처리 방식: 필러를 인식 대상에서 제외하기보다, 전사 후 ITN(Inverse Text Normalization) 단계에서 제거하거나 후처리하는 방향으로 변경 제안.
  • Forced Alignment의 역할: 인식이 아닌 ‘텍스트-오디오 정렬’ 도구로 사용하며, 서빙 중인 AM 모델의 Logits를 추출해 오프라인에서 DP 알고리즘(Viterbi 등)으로 시간 경계를 추정.
  • 파인튜닝 로드맵: 평가셋 분리(A-E) → Partial-start 데이터 생성 → 필러 포함 학습 → 호실/층수 패턴 데이터 추가 → 건물명 처리 방식(요미/목록/2-pass) 결정의 단계적 접근.