다듬이: 음성 텍스트 전처리 로직 개선

Source

  • Field Notes/ReturnZero/Daily Notes/Day 936. 2024-01-23.md

Summary

음성 인식 결과물인 텍스트를 정제하는 ‘다듬이’ 도구의 전처리 로직 개선 사항을 기록한 메모. 주요 개선점은 불필요한 문장부호 제거, 시간 기반 가중치를 적용한 문장 합치기, 그리고 ‘음’, ‘네’ 등의 중간 맞장구 제거이다. 또한 Python의 FutureWarning 무시 코드와 일본어 학습 기록이 혼재되어 있다.

Key Points

  • 불필요한 문장부호 제거: 간투어 제거 후 남는 홀로 남은 문장부호를 정리.
  • 문장 합치기 로직 개선: 시간 기반 가중치(약 3초)를 적용하여 문장을 자연스럽게 연결.
  • 맞장구 필터링: ‘음’, ‘네’ 등 중간에 발생하는 맞장구 제거.
  • 개발 환경 설정: Python warnings.simplefilter를 통해 FutureWarning 무시.