3i4k 데이터셋을 활용한 화행분류 Feasibility 검토

Source

  • Field Notes/ReturnZero/Daily Notes/Day 334. 2022-05-30.md

Summary

이 노트는 한국어 화행분류(Intent Classification)를 위해 3i4k 데이터셋을 검토하는 과정과 그 타당성(Feasibility)에 대한 초기 고민을 기록한다. 화행의 종류(명령, 질문 등)와 물음표 부착 기준을 정의하며, 기존 영어 데이터셋(SWDA)과의 비교를 통해 B2B 기획 관점에서 데이터셋 자체만으로 타당성을 논의할 수 있을지 탐색한다.

Key Points

  • 한국어 화행분류(Intent Classification)를 위한 3i4k 데이터셋 검토
  • 화행 라벨 정의: fragment, statement, question, command, rhetorical question/command, intonation-dependent 등 7 가지
  • 물음표 부착 기준 및 화행 판단 로직에 대한 초기 질문 제기
  • 기존 영어 데이터셋(SWDA)과의 카테고리 비교를 통한 데이터셋 특성 파악
  • B2B 기획 관점에서 데이터셋 존재 여부만으로 Feasibility 논의 가능성 탐색