rt-gec 토크나이저 이슈 및 일본어 ITN 학습 데이터 가이드라인

Source

  • Field Notes/ReturnZero/Daily Notes/Day 601. 2023-02-21.md

Summary

본 노트는 rt-gec 모듈의 토크나이저 통합 과정에서 발생한 클래스 이름 불일치 및 모델 컴파일 오류를 기록하고 있다. 또한 일본어 ITN(Inverse Text Normalization) 학습을 위한 데이터 수집 및 전처리 가이드라인을 상세히 기술하고 있다. 주요 내용은 일본어 학습 데이터의 이중전사(Double Transcription) 규칙(주소, 인명, 코드네임, 약어 구분 및 가타카나 변환), 특수문자 및 숫자 처리를 위한 WFST 적용 방안, 그리고 Mecab 전처리 순서 조정 등이다. 마지막으로 띄어쓰기 관련 벡터 데이터가 포함되어 있으나, 전체적으로 개발 일지 및 미완성 초안 특성이 강하다.

Key Points

  • rt-gec 토크나이저 모듈화 시 클래스 이름 불일치 및 모델 컴파일 실패 문제 발생
  • 일본어 ITN 학습을 위한 5명 이상 인력 고용 및 데이터 제공 계획 수립
  • 이중전사 포맷 정의: ({철자전사}/{발음전사}/{종류}) (종류: ADDR, NAME, CODE, ABR)
  • 주소(ADDR): 영단어는 가타카나, 숫자는 한자/히라가나 발음으로 이중전사
  • 인명(NAME): 한자 포함 시 (한자/가타카나), 후리가나만 있을 시 (가타카나)로 처리
  • 코드네임(CODE) 및 약어(ABR): 영문자+숫자 조합 및 영문 약어는 가타카나 발음으로 이중전사
  • 데이터 전처리: 누락 데이터 제외, Mecab 위치 조정, 특수문자 WFST 또는 공백 처리
  • 숫자 처리: 0 시작 숫자, 분수, 시간은 WFST를 통해 표준화