ReturnZero Day 526: 한국어/일본어 NLP 파이프라인 디버깅 및 코퍼스 구축

Source

  • Field Notes/ReturnZero/Daily Notes/Day 526. 2022-12-08.md

Summary

2022-12-08 일지. 한국어 형태소 분석기(Kiwi) 모델 빌딩 중 인덱싱 버그로 인한 서비스 다운 및 재시도 로직 개선 필요성 확인. 국립국어원 구문분석 말뭉치(NIKL)를 활용한 코퍼스 구축 과정에서 데이터 병합 가능성 및 비속어 처리(NAP 태그) 이슈 발생. 일본어 처리 파이프라인(utterance_segmenter)의 run() 함수 구조 분석 및 ITN(Inverse Text Normalization) 모듈 수정 계획 수립.

Key Points

  • 한국어 토크나이저 버그: ’||’ 분리 로직의 인덱스 오류로 인한 순서 뒤바뀜 및 서비스 크래시 발생. 피보나치 백오프 재시도 로직 도입 필요.
  • 한국어 코퍼스 구축: 국립국어원 구문분석 말뭉치(NIKL_LS_2020_v2.0) 기반 구어/문어/메신저 데이터 확보. Kiwi 모델 빌딩 시 기존 학습 데이터 중복 여부 및 모두의말뭉치 병합 가능성 검토 중.
  • 비속어 처리: NAP 태그를 NNP로 치환하며, 코퍼스 생성기의 개행 오류로 인한 데이터 품질 이슈 확인.
  • 일본어 파이프라인 분석: utterance_segmenter의 run() 함수 파라미터(works, utter_range, use_vulgar_predefined_expression 등) 및 turn 분할 로직(_segment_turn_to_utterance) 구조 파악.
  • 다음 단계: 일본어 ITN 모듈(wfst_itn.inverse_normalize) 수정 작업 진행 예정.