일본어 데이터 전처리 및 정제 규칙 (Day 790)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 790. 2023-08-29.md

Summary

이 노트는 일본어 관련 텍스트 데이터(특히 AIHUB, TOEIC 등)를 전처리하며 발견된 노이즈 패턴과 정제 규칙을 기록한 일기 형식의 메모이다. 주요 문제의식은 ‘이중전사 오류’, ‘대소문자 혼용’, ‘특수 기호(꺽쇠괄호, 골뱅이)’, ‘외래어/단위어’ 등을 어떻게 필터링하거나 처리할지에 대한 실용적인 판단 기준을 세우는 것이다. 또한 관련 스크립트(align_audio, qoo10_normalize) 작업과 GPU operator 검토 등 기술적 맥락이 혼재되어 있다.

Key Points

  • 데이터 정제 대상: AIHUB, TOEIC, NAVER, BAAM 등 다양한 출처의 텍스트.
  • 제거/필터링 규칙: 이상한 이중전사 단어 버리기, 소문자 단어 제거, 꺽쇠괄호 포함 시 invalidate 처리.
  • 주의 대상: 대소문자 혼용 단어, 특수 단위(mm, cm, kHz 등), 외래어(bestimmen, culture 등).
  • 기술적 맥락: 얼라인 리뷰, qoo10 코드/노말라이즈 작업, align_audio 스크립트, 현대캐피탈 GPU operator 검토.