화행 분석을 위한 한국어 형태소 분석기 평가 및 규칙 기반 접근의 한계

Source

  • Field Notes/ReturnZero/Daily Notes/Day 406. 2022-08-10.md

Summary

이 노트는 규칙 기반 화행 분석기의 수정과 버그 해결 과정에서, 단순 어미 분석의 한계를 인지하고 한국어 형태소 분석기(KoNLPy, Mecab, Okt 등)의 특성과 품사 태깅 정확도를 비교 평가한다. 특히 문장 종결 부호(온점) 유무에 따른 태깅 오차(예: ‘주세’ vs ‘주세요’)를 확인하며, 조건부 화행 감지를 위한 품사 분석의 필요성과 한계를 논의한다. 또한 고객 정보 익명화 관련 법적/기술적 고려사항과 수사적 표현(예: ‘연락할게요’)을 실제 화행과 구분하기 위한 패턴 기반 접근의 방향성을 모색한다.

Key Points

  • 규칙 기반 화행 분석기의 버그 수정 및 룰 개선 작업 진행
  • 단순 어미 분석의 명확한 한계 인식 및 형태소 분석기 도입 필요성 제기
  • KoNLPy 기반 분석기(Hannanum, Kkma, Komoran, Okt)와 Mecab 의 특성 비교
  • 문장 종결 부호(온점) 누락 시 품사 태깅 오류 발생 사례 확인 (‘주세’가 명사로 인식)
  • 조건부 화행 감지를 위한 품사 분석의 필요성 및 그 애매모호성 논의
  • 수사적 표현(예: ‘궁금하면 연락하세요’)과 실제 화행 구분을 위한 패턴 기반 접근 고려
  • 3 사 학습용 고객 정보 제공 시 데이터 3 법 및 익명화/마스킹 기술 적용 필요성 확인