일본어 NLP 파이프라인 및 데이터셋 전처리 작업 기록

Source

  • Field Notes/ReturnZero/Daily Notes/Day 813. 2023-09-21.md

Summary

이 노트는 일본어 텍스트 처리 파이프라인(히라가나/가타카나 학습, 노말라이저 적용, MeCab 기반 세그멘테이션)과 코드 모델용 데이터셋(mww, common_voice, etri 등)의 전처리 및 vocab 생성 과정을 기록한 작업 일지이다. 특히 데이터셋별 가중치 조정, memmap 생성 규칙 변경, 테스트셋 구성에 대한 의문점 등이 포함되어 있다.

Key Points

  • 일본어 토크나이저/노말라이저 개발: 가타카나/히라가나 학습 모델(tracer, winston) 및 MeCab 기반 세그멘테이션 적용 시도
  • 데이터셋 전처리 및 가중치: mww_number, tts, csj, etri 등 다양한 일본어 데이터셋에 대한 노말라이저 적용 및 학습 가중치(0.05~0.504) 기록
  • Vocab 및 Memmap 관리: 기존 복사 방식 대신 새 규칙으로 vocab 재생성 필요성 인지, finetuning_8k_alphanumber_mww_0919_memmap 등 memmap 파일 업데이트 작업
  • 코드 모델 데이터셋 분류: common_voice, etri, csj 등은 export 만 수행하고, mww 계열(hiragana, code, number, kanji)은 별도 처리 필요
  • 의문점: 테스트셋 구성의 타당성에 대한 고민(tts 테스트 제외 여부 등)