일본어 데이터 전처리 및 ITN 방침 (Day 623)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 623. 2023-03-15.md

Summary

일본어 프로젝트에 집중하기 위한 데이터 전처리 방침을 수립함. 핵심은 철자전사(Orthographic Transcription)를 위해 ITN(Inverse Text Normalization)을 적용하여 숫자를 아라비아숫자로 변환하는 것임. 영문 단어는 제거하되 영문자는 유지하며, ITN 데이터 가공은 ChatGPT를 활용하기로 함. 관련 서버 환경변수 및 토큰 관리 등 기술적 설정도 언급됨.

Key Points

  • 일본어 데이터 전처리 전략: 철자전사 중심
  • ITN 적용: 숫자를 아라비아숫자로 변환 (담당자: Dan)
  • 텍스트 필터링: 영문 단어 제거, 영문자 유지
  • 자동화 도구: 일본어 ITN 데이터 가공에 ChatGPT 활용
  • 기술적 참고: Bmt online 서버 환경변수 및 프로나이아 토큰 관리