신한카드 RFI 대응 및 STT 엔진 개발 현황 (Day 1034)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1034. 2024-04-30.md

Summary

신한카드의 실시간 STT 기반 고객 의도 파악 RFI 요구사항 분석 및 대응 준비 중. 주요 요구사항은 음절 기준 CER 93% 이상(오류률 7% 이하), 사투리/외래어/숫자 인식 정확도, ITN/NER/VAD 등 후처리 기능, 화자 분리, 그리고 STT 분석과 음원 수집의 구조적 분리임. 현재 파일명 매핑 오류(Duppi wav.scp) 확인 중이며, RFP 작성 필요성 검토, 개인정보 마스킹/리플레이서 등 엔진 필터 개발, CPU용 SIMS 모델 학습(AM, PTQ 변환)이 주요 진행 과제임.

Key Points

  • 신한카드 RFI 핵심 요구사항: 실시간 STT 기반 의도 파악, CER 93% 이상(2 초 이상 발화 기준), 사투리/외래어/숫자 대응, 후처리(ITN, NER, VAD), 화자 분리, 모듈화 구조(STT 분석/음원 수집 분리)
  • 현재 이슈: 둠피 wav.scp 파일명 매핑 오류 ({오디오명}{시작시간} vs {오디오명}{시작시간}_{종료시간})
  • 대응 계획: RFP 작성 필요성 검토 및 정리
  • 개발 과제: 개인정보 마스킹 및 리플레이서 기능 포함 엔진 필터 개발
  • 모델 개발: CPU 용 SIMS 개발 (AM 학습, PTQ 변환)