Day 527. 2022-12-09

Source

  • Field Notes/ReturnZero/Daily Notes/Day 527. 2022-12-09.md

Summary

대규모 한국어 말뭉치(700만 건) 처리 및 Kiwi 형태소 분석기 모델 학습 실험 진행 중. 기존 형태소와 Kiwi 형태소의 카운팅 결과 유사성을 확인하고, 나무위키 데이터 추가 학습을 시도했으나 처리 시간이 길어짐. 일본어 NLP 파서 코드 정리를 위해 숫자(number), 날짜(date), 단위(unit) 등의 정규화 로직을 한국어에서 일본어(한자/가나)로 마이그레이션하며, 일본어 특유의 숫자 발음 규칙(예: 나이 표현, 분수)과 예외 처리에 대한 검토 필요성을 확인함.

Key Points

  • 한국어 말뭉치 처리: 700만 건 데이터 처리 중이며, 위키 데이터 학습 완료. Kiwi 형태소 분석기 모델 학습을 위해 다양한 코퍼스(NXLS, MXLS, KorQuad, Wiki 등)를 활용 중.
  • 학습 실험: 자체 생성 형태소와 Kiwi 형태소의 카운팅 결과가 유사함을 확인. skipbigram 옵션 적용 시 오류 발생 및 전체 학습 과정의 긴 소요 시간으로 인해 작업 병목 발생.
  • 일본어 파서 개발: 한국어 파서 로직을 일본어에 적용하기 위해 코드 리팩토링 진행. number_hanjanumber_kanji로, number_hangulnumber_kana로 변경하는 등 언어별 특성에 맞는 정규화 규칙 수정 필요.
  • 정규화 규칙 검토: 일본어 숫자 처리 시 ‘이/사/오/구’ 등 한자음과 일본어 발음의 혼용, 분수(‘점’) 처리, 나이 표현(하타치 등) 등 한국어와 다른 예외 케이스들을 식별하고 로직 단순화(불필요한 모듈 제거) 방향 모색.