가치 있는 발화 추출의 어려움과 SAC 방향성 고민

Source

  • Field Notes/ReturnZero/Daily Notes/Day 412. 2022-08-16.md

Summary

WFST 기반 규칙 및 테스트 데이터셋 구축 과정에서 ‘가치 있는 발화(질문, 요구, 언약)‘를 정확히 추출하는 데 한계를 느꼈다. 문장 내 다중 의도, 문장 부호 부재, 질문과 요구의 경계 모호성, 그리고 수사적 화행의 과다로 인해 단순한 문장 형식 기반 접근이 어렵다는 문제의식을 제기하며, SAC(Speech Act Classification?) 방향에서 이를 어떻게 정의하고 해결할지 고민하고 있다.

Key Points

  • WFST 규칙 마무리 및 테스트 데이터셋 구성 완료
  • 궁극적 목표: 대화 중 ‘가치 있는 발화’ 캐치 (후보: 질문, 요구, 언약)
  • 추출의 어려움: 문장 내 다중 의도, 문장 부호 부재, 질문/요구 경계 모호성 (예: ‘알려주세요’)
  • 데이터셋 내 ‘가치 없는 수사적 화행’이 예상보다 많음
  • WDiar 신규 모델 성능 분석 중: ASR 모델에 따른 단어 차이로 WDER 지표 관리 어려움
  • 다음 단계: ‘가치 있는 발화’의 재정의 및 SAC 방향성 설정 필요