T4 빌드 및 일본어 NLP 처리 방안

Source

  • Field Notes/ReturnZero/Daily Notes/Day 677. 2023-05-08.md

Summary

T4 빌드 시 데이터 이전 필요성을 확인하고, 일본어 처리 시 띄어쓰기 부재로 인한 문장 구분 어려움을 Mecab 활용 및 GPT 기반 인덱스 매칭/재건 방식으로 해결하려는 의도를 기록함.

Key Points

  • T4 빌드 환경에서 데이터 이전 작업 필요성 확인 (테스트 미진행 상태)
  • 일본어 NLP 처리 시 띄어쓰기 부재로 인한 문장/단어 구분의 어려움 인지
  • Mecab 활용 고려 및 GPT를 통한 단어-문장 인덱스 매칭 또는 유사 문장 재건 방식 검토