맞춤법 검사 자동화 봇 및 데이터 파싱 로직

Source

  • Field Notes/ReturnZero/Daily Notes/Day 503. 2022-11-15.md

Summary

rtboost 데이터셋을 대상으로 hanspell 기반 맞춤법 검사 봇을 구축하는 작업 흐름을 기록함. 데이터 읽기, 검사 실행(低速), 저장, 원본 복구(CTM) 단계를 포함하며, DATAMAP 모듈을 통해 dataset name, path, parser 정보를 관리하고 onset/offset/dialog 등 음성 데이터 필드를 파싱하는 로직(read_convert_dataframe, rttm, ecc)을 정의함.

Key Points

  • hanspell을 활용한 맞춤법 검사 봇의 실행 파이프라인 구성
  • rtboost 데이터셋 기반의 데이터 읽기 및 저장 프로세스
  • DATAMAP 구조를 통한 데이터셋 메타데이터 및 파서 관리
  • 음성 데이터(onset, offset, dialog, spk_id 등)의 다양한 포맷 변환 로직 정의