회의록 요약(Action Item 추출) 연구 서베이 및 난점 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 413. 2022-08-17.md

Summary

본 노트는 비즈니스 도메인 데이터 추출을 위한 ‘액션 아이템 추출’ 및 ‘대화 요약’ 관련 연구 서베이 결과를 기록한다. 특히 회의록 요약의 주요 난점(비정형 대화, 긴 문장 길이로 인한 트랜스포머 모델의 계산 비용 문제, 평가 지표의 한계 등)을 분석하며, 기존 추출식 요약의 부적합성과 추상적 요약의 필요성을 지적한다.

Key Points

  • 액션 아이템 추출 및 대화 요약 관련 논문 서베이 진행 (Springer, arXiv, ACM 등)
  • 회의록 요약의 고유한 난점: 간투어/정정 등 비정형성, 화자 겹침, 데이터 부족
  • 추출식 요약(Extractive)의 한계: 대화 맥락 분산으로 인해 부적합, 추상적 요약(Abstractive) 선호
  • 기술적 제약: 회의록의 긴 토큰 길이(평균 4757)로 인한 트랜스포머 모델의 계산 비용 문제 및 전이 학습 어려움
  • 평가 지표의 한계: ROUGE 등 기존 메트릭이 대화의 주제성을 제대로 평가하지 못함, 새로운 메트릭 개발 필요성 제기