2022-12-13 작업 기록: NLP 파이프라인 디버깅 및 일본어 ITN 통합

Source

  • Field Notes/ReturnZero/Daily Notes/Day 531. 2022-12-13.md

Summary

이 노트는 2022 년 12 월 13 일의 작업 일지로, 한국어 NLP 모델 학습 중 발생한 기술적 장애와 일본어 ITN(Inverse Text Normalization) 모듈 통합 과정에서의 문제점을 기록하고 있다. 주요 내용은 다음과 같다: 1) 한국어 학습: 나무위키 코퍼스 (17GB) 가 너무 커서 학습 시 ‘-nan’ 오류가 발생하여 제외하고, skipbigram 빌드 실패 원인을 기존 모델과 코퍼스 분리 테스트로 점검 중임. 2) 일본어 ITN: 패트릭의 코드 병합 중 패키지 구조 오류를 수정하고, MeCab 품사 태그 (UniDic) 와 한국어 품사 태그 매핑을 위해 UniDic 의 5 단계 품사 체계를 4 단계로 치환하는 방안을 모색함. 3) 기타: API 비용 초과 (rt1 프리티어 소진) 와 Vex 하이라이터 UI 개발 진행 상황도 언급됨.

Key Points

  • 한국어 NLP 학습 시 나무위키 코퍼스 (17GB) 포함 시 ‘-nan’ 오류 발생하여 학습에서 제외하고 skipbigram 빌드 문제 진단 중
  • 일본어 ITN 모듈 통합 시 패키지 이름 변경 실수 수정 및 인터페이스 통일 필요성 확인
  • MeCab(UniDic) 의 5 단계 품사 태그를 프로젝트에 필요한 4 단계 체계로 매핑하기 위한 치환 규칙 검토 (예: 명사, 동사, 형용사 등)
  • API 게이트웨이 호출 비용으로 인해 rt1 프리티어 소진 및 추가 요금 발생
  • Vex 하이라이터 UI 개발: 원본 텍스트 입력 박스 및 결과 표시 영역 구현 진행 중