3i4k 데이터 정제 전략 및 SAC 프로젝트 아키텍처 정의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 363. 2022-06-28.md

Summary

이 노트는 3i4k 데이터셋의 문장 단위 정제(짧은 문장/단어 제거, Kiwi 라이브러리 활용)와 화행 분류(질문/답변)의 한계를 논의한다. 또한 SAC 프로젝트를 방법론/모델과 API 정의(rt-itn 기반 WFST ITN)의 두 트랙으로 분리하여 진행할 계획을 수립하고, 발성 과정에 대한 이론적 배경을 정리한다.

Key Points

  • 3i4k 데이터 정제: 짧은 문장 및 단일 단어(예: ‘어?’) 제거, Kiwi 라이브러리를 통한 문장 분리 검토
  • 화행 분석: 기존 7 개 분류의 한계 지적, 문맥 분석 필요성 인식, 최종 목표는 ‘질문/답변’ 이분화
  • SAC 프로젝트 구조: 방법론/모델 개발과 API 정의(rt-itn 기반 WFST ITN 클래스 활용)의 투트랙 진행
  • 기술 스택: rt-itn 의 Python ITN 클래스 및 WFST 기반 runner 활용 계획
  • 이론적 배경: 구강 구조와 공명 주파수 (Formant) 의 관계에 대한 발성 과정 정리