Kiwi NLP 모델 빌딩 및 데이터 전처리 작업 기록

Source

Field Notes/ReturnZero/Daily Notes/Day 519. 2022-12-01.md

Summary

이 노트는 Kiwi 한국어 형태소 분석기의 모델 빌딩(KiwiBuilder)을 위한 데이터 전처리 과정과 관련 스크립트(convertModuToKiwi, extractMorphemeList.py)의 동작 원리를 분석한 작업 일지이다. 모두의 말뭉치 데이터를 Kiwi 형식(JSON)으로 변환하고, 품사 태그 정규화(MM, J, E 등) 및 형태소 카운팅 규칙을 확인하는 과정을 담고 있다. 또한 Kiwi 모델 파일(.morph, .knlm, .mdl) 생성 방식과 정규표현식, Python 문법 관련 학습 내용도 포함되어 있다.

Key Points

Kiwi NLP 모델 빌딩을 위해 모두의 말뭉치 데이터를 Kiwi 호환 JSON 형식으로 변환하는 작업 진행
convertModuToKiwi 스크립트의 품사 태그 정규화 로직 분석 (MM 통일, 조사/어미 형태소 처리 등)
extractMorphemeList.py의 형태소 카운팅 및 필터링 로직 확인 (min_cnt, stop_pattern, distant 계산 등)
KiwiBuilder를 통한 모델 파일(sj.morph, sj.knlm, skipbigram.mdl 등) 생성 과정 및 옵션 확인
작업 환경 마이그레이션 및 Git LFS/Submodule 설정 관련 기술적 기록

AncomWiki

탐색기

Kiwi NLP 모델 빌딩 및 데이터 전처리 작업 기록

Kiwi NLP 모델 빌딩 및 데이터 전처리 작업 기록

Source

Summary

Key Points

그래프 뷰

목차

백링크

AncomWiki

탐색기

Kiwi NLP 모델 빌딩 및 데이터 전처리 작업 기록

Kiwi NLP 모델 빌딩 및 데이터 전처리 작업 기록

Source

Summary

Key Points

Related

그래프 뷰

목차

백링크