dadumi-whisper 파이프라인 개선 및 현대캐피탈 업무

Source

  • Field Notes/ReturnZero/Daily Notes/Day 833. 2023-10-12.md

Summary

2023-10-12 일지. 현대캐피탈 보안 설정 대응을 위해 대방 방문 예정. 주요 기술 작업은 dadumi-whisper 시스템 개선으로, Whisper worker의 샘플 출력 확보, KSS 기반 문장 분할 로직 제거(Whisper 자체 문장부호 출력 활용), Punctuator의 중복 구두점 처리 로직 수정, 그리고 run 파라미터(model, language, split 등) 추가 및 특수문자/구두점 정제 규칙 정의가 핵심이다.

Key Points

  • 현대캐피탈: 보안 설정 대응을 위해 오후 6시까지 대방 방문 예정.
  • dadumi-whisper 아키텍처: Whisper worker의 샘플 출력 필요성 확인.
  • 문장 분할 로직 변경: 기존 KSS+MeCab 기반 분할 대신 Whisper 자체 출력의 문장부호를 활용하여 KSS 의존성 제거.
  • Punctuator 개선: 중복 구두점(특히 점) 처리 로직 검토 및 수정.
  • 파라미터 및 정제 규칙: run 파라미터(model, language, split, clean 등) 추가 및 특수문자/연속 구두점 처리 규칙(2번째 문자가 구두점일 때 우선순위 등) 정의.