TMN 미팅 및 STT 모델 성능/데이터 전략 논의 (Day 845)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 845. 2023-10-24.md

Summary

TMN 미팅에서 10 월 19 일 이후 STT 테스트 결과 (WER 기준 83~89%) 를 검토하고, 일본어 환경에서 이름 및 주소 인식의 중요성 (WER 민감도) 을 확인함. 일반 발화 및 도메인 특화 (도시가스, 가전 등) 를 위한 데이터 수집 전략 (알바 녹취, 시나리오 기반) 과 모델 커스터마이징 (온프레미스 제외 시 인스턴스 추가) 의 기술/비즈니스 이슈를 논의. 연말까지 상용화 버전 출시를 목표로 데이터 갱신 및 모델 학습을 지속하기로 결정.

Key Points

  • STT 성능 평가: TMN 내부 테스트 결과 WER 기준 83~89% 로 가타카나보다 성능 우위. 일본어 특성상 이름/주소 오인식 시 비즈니스 리스크 (청구권한 상실, 배송 불가) 가 큼.
  • 데이터 수집 전략: 일반 발화 데이터 부족 (특히 일본어). 도메인 특화 (도시가스, 파나소닉 등) 를 위해 시나리오 기반 알바 녹취 및 실제 대화 텍스트 활용 필요. 숫자/알파벳/풀네임 데이터 다양성 확보 중요.
  • 모델/엔진 정책: 고객별 별도 모델 구축은 온프레미스 제외 시 인스턴스 추가 필요. Opt-out 비용 (Watson 대비) 및 STT 대시보드 개발 진행 중.
  • 로드맵: 연말 (최대 내년 1 월) 까지 상용화 버전 출시 목표. TMN/MWW 에서 데이터 관련 논의 지속. 동력가스 등 주요 고객사 데이터 수록 및 모델 갱신 계속.