2022-11-21 작업 기록: 한글 교정 로직 수정 및 Highlighter PoC 환경 설정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 509. 2022-11-21.md

Summary

이 노트는 2022 년 11 월 21 일의 작업 일지를 기록한 것이다. 주요 내용은 네이버 검사 결과 기반의 띄어쓰기 추출 로직 구현 및 hanspell 수정, 복합 교정에서의 조사 관련 띄어쓰기 규칙 적용 (붙임/띄움) 이다. 또한 Kiwi space 관련 LM 학습의 C++ 커스터마이징 가능성을 검토했다. 마지막으로 Highlighter PoC 프로젝트에서 발생한 Node.js 파일 감시 제한 (ENOSPC) 오류를 CHOKIDAR_USEPOLLING=1 환경 변수 설정과 stderr 리다이렉트를 통해 우회 해결한 과정을 기술하고 있다.

Key Points

  • 한글 교정 로직 개선: 네이버 검사 결과 파싱을 통한 띄어쓰기 추출 및 hanspell 수정
  • 복합 교정 규칙: 조사 관련 띄어쓰기 교정 (붙여쓰기/띄어쓰기 판단 로직)
  • Kiwi space 연구: C++ 기반 LM 학습 코드의 커스터마이징 가능성 탐색
  • Highlighter PoC 문제 해결: Node.js 파일 감시 한계 (ENOSPC) 오류 발생
  • 환경 설정 우회: CHOKIDAR_USEPOLLING=1 적용 및 에러 메시지 필터링 (2> /dev/null)