Kiwi 형태소 분석기 학습 데이터 확보 및 일본어 ITN 개발 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 524. 2022-12-06.md

Summary

본 노트는 Kiwi 형태소 분석기의 추가 학습 불가능성 확인 및 원본 학습 코퍼스 확보 방안 모색, 일본어 ITN(Inverse Text Normalization)을 위한 데이터셋 탐색 및 MeCab/Fugashi 품사 태그 매핑 전략 수립 과정을 기록한 일일 작업 노트이다.

Key Points

  • Kiwi 모델의 추가 학습이 불가능한 것으로 판단되어, 기존 학습에 사용된 코퍼스 확보 또는 대체 데이터(VTS 등) 병합 학습 필요성 제기
  • 일본어 ITN 개발을 위한 테스트 데이터셋(Kaggle 등) 탐색 중, 한자/가나 혼재 환경에서의 숫자/날짜 정규화 규칙(MS Recognizers-Text 기준) 정의 필요
  • MeCab 또는 Fugashi를 활용한 일본어 품사 분석 시, posid 동작 불가로 인해 품사 태그 매핑 테이블 생성 및 Sudachi 등 대체 도구 검토
  • Kiwi 벤치마크 성능 저하 문제 및 raw 데이터 저장 오류 등 기술적 장애물 기록