Apologize FP & Rule-Based Classifier Issues

Source

  • Field Notes/ReturnZero/Daily Notes/Day 475. 2022-10-18.md

Summary

이 노트는 비즈니스 통화 데이터에서 ‘사과’나 ‘간접 질문’ 패턴을 규칙 기반 분류기로 추출할 때 발생하는 위양성(False Positive) 사례와 성능 문제를 기록한 것이다. 특히 시간 관련 표현(예: ‘늦은 시간에’)의 맥락 오해, 간접적 질문의 식별 어려움, 애매모호한 응답 처리의 한계를 지적한다. 또한 대용량 데이터(57만 건) 처리 시 규칙 기반 접근법의 극심한 속도 저하(6배 이상)를 실행 로그를 통해 확인하며, 현재 태깅 시스템의 한계로 인해 즉시 적용이 어렵다고 판단했다.

Key Points

  • 위양성(FP) 유발 패턴: ‘늦은 시간’, ‘퇴근 후’ 등 시간적 맥락이 명확하지 않은 표현이 사과로 오분류될 위험이 있음.
  • 간접 질문 식별의 어려움: ‘확인해 볼려고’ 등 의도가 불분명한 문장이나 ‘언제쯤 해야될까요’ 같은 간접 질문을 규칙으로 포착하기 어려움.
  • 애매모호한 응답 처리 한계: ‘변동사항 생기면 연락드리겠습니다’ 등 확정적이지 않은 응답에 대한 태깅이 현재 시스템에서 지원되지 않음.
  • 성능 병목: 규칙 기반 분류기가 대용량 데이터 처리 시 기존 대비 약 6배 느린 속도를 보이며 확장성에 문제 있음.
  • 추가 FP 사례: ‘지금 아이가 몇학년이죠’ 같은 무관한 질문이나 ‘30 구도’, ‘고이’ 등 발음 유사성으로 인한 오분류 가능성 확인.