ASR-ITN 파이프라인 최적화 및 재학습 전략 논의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 565. 2023-01-16.md

Summary

ASR(음성인식) 후처리 파이프라인에서 띄어쓰기 교정 모델의 필요성 재검토. ASR 재학습 시 띄어쓰기 성능이 충분히 개선된다면 별도 띄어쓰기 모델을 파이프라인에서 제외할 수 있는지 논의. 현재는 띄어쓰기 모델 학습 후 ASR 재학습을 진행하며, 로컬 테스트 후 서버 자원 배정을 계획 중. ITN(역텍스트규격화) 모델(rt-itn, rt-neural-itn) 비교도 병행.

Key Points

  • ASR-띄어쓰기-ITN 3단계 파이프라인 구조 검토
  • ASR 재학습 모델의 띄어쓰기 성능이 양호할 경우, 별도 띄어쓰기 모델 생략 가능성 탐구
  • 로컬 컨테이너에서 띄어쓰기 모델 학습 및 ASR 재학습 테스트 후, 성능 확인 시 머신 배정 요청
  • ITN 모델 비교: rt-itn vs rt-neural-itn