MeCab 기반 한국어 형태소 분석 가능성 및 21세기 세종 계획 성과물 폐쇄성 비판

Source

  • Evernote/Inbox/다양한 생각 MeCab을 이용한 한국어 형태소 분석과 폐쇄적인 21세기 세종 계획 성과물.md

Summary

본문은 공개된 한국어 형태소 분석기의 부재와 한계를 지적하며, 일본어 분석기인 MeCab을 한국어에 적용하는 실험을 소개한다. 저자는 MeCab이 언어 독립적 설계와 CRF 기반 성능을 갖추고 있어, 간단한 한국어 사전을 구축하면 분석이 가능함을 시연했다. 반면, 국민 세금으로 개발된 ‘21세기 세종 계획’의 말뭉치와 사전이 폐쇄적으로 관리되고 있으며, 접근 절차가 비효율적이고 법적 조항이 모호함을 비판한다. 일본과 영국의 공개 말뭉치 사례와 대비하며, 국립국어원이 말뭉치를 오픈 라이선스로 공개해야 한국어 NLP 생태계가 발전할 수 있다고 주장한다.

Key Points

  • 기존 공개 한국어 형태소 분석기(한나눔, 꼬꼬마 등)는 기능적 한계나 소스 비공개 문제로 활용도가 낮음.
  • MeCab은 언어/사전 독립적 설계, CRF 채용, 다양한 언어 바인딩 지원 등 범용성이 뛰어남.
  • 저자는 MeCab에 간단한 한국어 사전을 적용하여 ‘나는 밥을 먹는다’와 같은 문장을 정상적으로 분석하는 데 성공함.
  • 21세기 세종 계획 성과물(말뭉치, 전자사전)은 접근이 제한적이고, 배포 시스템 오류 및 우편 발송 등 비효율적인 관리 방식을 비판함.
  • 일본(ipadic, naist-dic 등)과 영국의 말뭉치가 공개되어 있는 것과 달리, 한국어 말뭉치의 폐쇄성이 NLP 연구 및 도구 개발을 저해한다고 지적함.
  • 국립국어원이 말뭉치를 BSD/GPL 등 오픈 라이선스로 공개할 경우, MeCab 기반 고품질 한국어 분석기 개발이 가능할 것이라 제안함.