신한카드 프로젝트: vito-worker 배포 및 전사 오류 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1245. 2024-11-26.md

Summary

2024-11-26 신한카드 프로젝트 일지. vito-worker의 빠른 배포를 위해 pysommers 의존성 버전 충돌(0.0.90)을 해결하고 vito-worker(0.0.87+)를 업데이트함. 주요 이슈로 dadumi 모듈에서 src_tokens/unk_tokens가 None인 상태로 detokenize 함수가 호출되어 오류가 발생하는 현상 확인. 전사 결과에서 문장 단절, 중복, [SEP] 토큰 누락, 빈 리스트 추가 등 이상 징후 관찰 중. 일본어 키워드 기반 수정 및 배포 테스트 진행.

Key Points

  • vito-worker 배포 준비: pysommers 0.0.90 업데이트(edlib, jamo 수정, wheels 추가) 및 vito-worker 0.0.87 이상 강제 설치 설정
  • dadumi detokenize 오류: src_tokens 및 unk_tokens가 None인 경우 처리 필요
  • 전사 결과 이상 현상: 문장 중복, [SEP] 토큰 누락, 마지막 항목의 빈 리스트, utter_range 관련 가능성 검토
  • 일본어 처리: 키워드+문장 기반 수정 및 배포 테스트 진행