SAC 통화 요약: 추출형 vs 생성형 요약 전략 및 평가 지표

Source

  • Field Notes/ReturnZero/Daily Notes/Day 418. 2022-08-22.md

Summary

이 노트는 SAC(통화 요약) 프로젝트의 방향성 회의 내용을 기록한 것으로, 핵심 쟁점은 ‘추출형(Extractive)’ 요약과 ‘생성형(Abstractive)’ 요약 중 어떤 접근법을 채택할지 결정하는 것이다. 생성형 요약의 기술적 난이도(언어 압축/생성)와 추출형 요약의 한계(중복 정보 포함)를 비교 분석하며, 최종적으로 생성형 요약으로의 전환을 고려하고 있다. 또한 요약의 품질을 검증하기 위한 ROUGE 지표(1, 2, L, S)의 정의와 계산 방식을 정리하고, 요약 대상이 될 핵심 피처(약속, Q&A, 정보 등)를 정의하는 과정을 담고 있다.

Key Points

  • SAC 프로젝트의 핵심 과제는 통화 내용을 요약하는 태스크이며, 입력(문장 분할 기준)과 출력(태깅 양식, 메타데이터 포함 여부)의 정교화가 필요하다.
  • 요약 방식 선택: 추출형(원문 추출, 그래프/피처 기반, 중복 정보 문제) vs 생성형(원문 수정 없이 일반화 생성, 구문/문맥론 활용, 기술적 난이도 높음). 현재 생성형으로의 이행을 검토 중.
  • 요약 대상 핵심 피처 정의: 약속(시간/장소/인원 등), 질문/답변(Q&A), 키워드 관련 정보(Intel).
  • 평가 지표: ROUGE 스코어를 사용하여 인간 요약본과 기계 요약본의 유사도(Precision, Recall, F-measure)를 측정. ROUGE-1/2(단어 중복), ROUGE-L(LCS), ROUGE-S(Skip-Ngram) 등을 활용.
  • 프로덕트 측면에서 기획 문제(커버리지, 검증 방법)와 기술적 이슈가 병행하여 논의됨.