ReturnZero Day 495: 화자 분리 실패와 룰 기반 FP 감수

Source

  • Field Notes/ReturnZero/Daily Notes/Day 495. 2022-11-07.md

Summary

kobertsum 데이터 전사 과정에서 화자 분리 미흡으로 인해 6시간 분산 처리가 무의미해졌으며, 화자 정보 기반의 스마트 문장 분리 시도도 실패했다. 현재는 중첩문 문제와 FP(False Positive)를 일부 감수하는 방향으로 진행 중이며, 블랙리스트 및 관용 표현을 포함한 룰 검사를 통해 성능이 상당히 개선된 것으로 평가된다.

Key Points

  • kobertsum 데이터 전사 시 화자 분리 누락으로 인한 재작업 필요성 확인
  • 화자 분리 및 시간 정보 기반 스마트 문장 분리 시도 실패
  • 중첩문 처리의 한계로 인해 FP 감수 전략 채택
  • 블랙리스트 및 관용적/수사적 표현(예: ‘전화좀 바꿔드릴게요’, ‘궁금한 점 있으면 연락주세요’)을 포함한 룰 검사 강화
  • 캐시 적용(wfst_cache_dir) 및 룰 업데이트를 통한 전반적인 성능 개선 확인