맞춤법 데이터 구조 및 토크나이징 전략 논의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 498. 2022-11-10.md

Summary

맞춤법 관련 작업에서 데이터 구조와 저장 방식을 핵심 문제로 제기함. rtboost 의 부적합성(Dan 의 의견) 을 언급하며, annotation-dialog 의 경우 이중 전사 특성과 토크나이징 방식에 따른 차이를 고려해야 함을 지적함. 토크나이저 조합별 별도 데이터셋 구성을 제안하며, 원본 정보, 데이터셋, 레코드, 발화, 다이얼로그로 구성된 기본 데이터 구조를 제시함. 미완성 PoC(Proof of Concept) 아이디어도 간략히 기록됨.

Key Points

  • 핵심 문제: 데이터 구조 및 저장 방식
  • rtboost 는 부적합하다고 판단 (Dan 의견)
  • Annotation-dialog 는 이중 전사되어 있으며, 토크나이징 방식에 따라 처리가 달라짐
  • 토크나이저 조합에 따라 별도의 데이터셋을 구성하는 것이 유리할 수 있음
  • 기본 데이터 구조 제안: 원본 데이터 정보 > 데이터셋 > 레코드 > 발화 > 다이얼로그
  • 미완성 PoC: JSON 기반 레코드 리스트와 대화록 시각화 인터페이스 구상