Kiwi NLP 모델 빌딩 및 데이터 전처리 작업 기록

Source

  • Field Notes/ReturnZero/Daily Notes/Day 519. 2022-12-01.md

Summary

이 노트는 Kiwi 한국어 형태소 분석기의 모델 빌딩(KiwiBuilder)을 위한 데이터 전처리 과정과 관련 스크립트(convertModuToKiwi, extractMorphemeList.py)의 동작 원리를 분석한 작업 일지이다. 모두의 말뭉치 데이터를 Kiwi 형식(JSON)으로 변환하고, 품사 태그 정규화(MM, J, E 등) 및 형태소 카운팅 규칙을 확인하는 과정을 담고 있다. 또한 Kiwi 모델 파일(.morph, .knlm, .mdl) 생성 방식과 정규표현식, Python 문법 관련 학습 내용도 포함되어 있다.

Key Points

  • Kiwi NLP 모델 빌딩을 위해 모두의 말뭉치 데이터를 Kiwi 호환 JSON 형식으로 변환하는 작업 진행
  • convertModuToKiwi 스크립트의 품사 태그 정규화 로직 분석 (MM 통일, 조사/어미 형태소 처리 등)
  • extractMorphemeList.py의 형태소 카운팅 및 필터링 로직 확인 (min_cnt, stop_pattern, distant 계산 등)
  • KiwiBuilder를 통한 모델 파일(sj.morph, sj.knlm, skipbigram.mdl 등) 생성 과정 및 옵션 확인
  • 작업 환경 마이그레이션 및 Git LFS/Submodule 설정 관련 기술적 기록