IP 돌리기 및 Kiwi 한국어 띄어쓰기 규칙 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 511. 2022-11-23.md

Summary

이 노트는 두 가지 주요 주제를 다룹니다. 첫째, 콜라보 레코딩 서비스에서 IP 주소를 변경하기 위해 Karpenter를 통해 Public IP가 할당된 노드를 생성하고 Squid 프록시를 배포하는 Kubernetes 인프라 설정 방법을 기록합니다. 둘째, Kiwi 한국어 형태소 분석기의 space() 함수 구현을 분석하여, 품사 태그 기반의 띄어쓰기 규칙(붙여쓰기 및 띄어쓰기 조건)과 정규식 패턴을 상세히 정리합니다. 분석 결과, 정확한 띄어쓰기를 위해서는 초기 형태소 분석(analyze)의 정확도가 중요함을 강조합니다.

Key Points

  • IP 돌리기 인프라: Karpenter 설정을 통해 Public IP 할당 노드 생성 및 Squid 프록시 배포
  • Kiwi 띄어쓰기 로직: space() 함수는 _reset()_space() 내부 함수로 구성
  • 붙여쓰기 규칙: 어미(E), 조사(J), 접미사(XS), 보조사(VX) 등은 이전 토큰과 붙여쓰기
  • 띄어쓰기 규칙: 품사 조합(예: 체언/용언 전후)에 따라 공백 삽입 여부가 결정되며, 정규식 space_insertable으로 정의
  • 핵심 인사이트: 띄어쓰기의 정확도는 형태소 분석(analyze) 단계의 결과에 직접적으로 의존