일본어 NLP 데이터 정제 및 운영 라이선스 발급

Source

  • Field Notes/ReturnZero/Daily Notes/Day 784. 2023-08-23.md

Summary

일본어 텍스트 정규화(Normalization) 작업 중 발견된 의심스러운 단어(브랜드명, 도메인 변형, 오타 등) 목록을 정리하고, 이를 사전에 추가하기 위한 검증 프로세스를 기록함. 또한 MWW-JP 프로젝트의 운영 환경(실시간/배치)에 대한 라이선스 발급 curl 명령어를 포함함.

Key Points

  • 일본어 텍스트 정규화 작업의 일환으로 의심 단어 추출 및 검증(청취/사전 추가) 진행
  • 브랜드명(Qoo10, Naver, Softbank 등)과 도메인 변형(yahoocojp, docomonejp 등)이 혼합된 의심 단어 목록 생성
  • 소문자 변형이나 필터링 대상이 될 수 있는 특수 케이스(o10.jp, Qoo10jpeasyshopping 등) 별도 분류
  • MWW-JP-PROD(실시간, 600 채널) 및 MWW-JP-BATCH-PROD(배치, 20 채널) 운영 라이선스 발급 명령어 기록