주소 교정 (Address Correction)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 712. 2023-06-12.md

Summary

Elasticsearch 기반 주소 교정 실패 후, Levenshtein 거리, WFST, N-gram, 계층적 구조 기반 교정 등 다양한 방법론을 검토 중. 특히 ASR 후처리 및 Whisper 서빙과의 연계를 고려하며, 일본어/한국어 자소 단위 처리의 어려움을 인지. 아울러 라이센스 서버 구축 및 Go 서버 재가동 등 운영 이슈도 병행 논의.

Key Points

  • Elasticsearch 기반 주소 교정 시도 실패 (fuzzy 검색 이해 부족)
  • 대안 방법론 검토: Levenshtein 거리, WFST, N-gram, 계층적 주소 구조 + 퍼지 검색
  • 언어별 특성 고려: 한국어 자소 분리 가능성, 일본어 처리 난이도
  • ASR 후처리 및 Whisper 서빙 연계 필요성 제기
  • 라이센스 서버 아키텍처 논의 (온프레미스/클라우드, 2티어, 사용량 기반 과금)
  • Go 서버 (pronaia) 재가동 및 테스트 진행