ITN 규칙 대응 및 Kiwi 기반 NLP 파이프라인 개선

Source

  • Field Notes/ReturnZero/Daily Notes/Day 525. 2022-12-07.md

Summary

이 노트는 일본어 ITN(Inverse Text Normalization) 규칙을 rt-itn-jp와 Microsoft Recognizers-Text 간에 비교 분석하고, Mecab 대신 Fugashi(Kiwi)로 대체하는 NLP 파이프라인 개선 작업을 다룹니다. 또한 대용량 텍스트 처리 시 500자 초과 문장 분할 전략과 품사 태깅 코퍼스 확보 및 벤치마킹 계획을 포함합니다.

Key Points

  • 일본어 ITN 규칙(날짜, 숫자, 수량단위 등)에 대해 rt-itn-jp와 MS Recognizers-Text의 구현 방식을 비교 분석 중
  • NLP 툴체인에서 Mecab을 Fugashi(Kiwi)로 대체하고, Kiwi 기반 품사 태깅 코퍼스 확보 및 학습 후 벤치마킹 계획
  • 대용량 텍스트 처리 시 500자 초과 문장을 안전을 위해 분할(split)하고 고유 ID 부여하는 전략 수립
  • 700만 데이터 처리 및 람다 함수 현황 점검 등 인프라 관련 작업 병행