일본어 주소 인식 모델 배포 및 MWW STT 성능 검증

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1170. 2024-09-12.md

Summary

2024-09-12 일일 업무 기록으로, 일본어 주소 인식 모델의 T4 변환(FP32) 및 SIMS 배포 준비, 후처리 로직 적용 테스트가 진행되었다. 또한 MWW(전력회사) STT 서비스의 EKS 환경 검증과 배포가 완료되었으며, 다양한 테스트셋(한자 포함)에 대한 PP(후처리) 전후 성능 지표(CER, WER, SER, RTFx) 비교 분석이 이루어졌다. 짧은 발화 학습의 부작용 제거, TTS 데이터 활용의 현실적 어려움, 인식 불가 한자 및 워드부스팅 이슈 등 기술적 고민사항도 기록되어 있다.

Key Points

  • 일본어 주소 모델: T4에서 FP32 변환 완료, SIMS 배포 준비 중. 후처리 로직 적용 전/후 롤링 업데이트 테스트 계획.
  • MWW STT 프로젝트: EKS 환경 검증 및 배포 완료. 정전 시 동시 수요 폭증에 대비한 1000채널 규모 서비스.
  • 성능 평가: PP(후처리) 적용 전후의 CER, WER, SER, RTFx 지표 비교. 일부 테스트셋에서 WER 99.99% 등 이상치 발생 확인.
  • 기술적 이슈: 짧은 발화 학습 시 성능 하락 trade-off, 기존 데이터 자르기 어려움, 인식 못하는 한자 및 워드부스팅 문제.
  • 주소 데이터 처리: 숫자 제거 후처리 로직 검토, 특정 주소 패턴(도쿄, 오사카 등)에 대한 인식 결과 샘플 기록.