일본어 ASR 얼라인 및 ITN 파이프라인 개발 (Day 635)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 635. 2023-03-27.md

Summary

일본어 ASR 시스템의 단어 수준 얼라인(word-level alignment) 알고리즘 설계와 다드미(Dadumi) 기반 ITN(Inverse Text Normalization) 파이프라인 구현을 위한 작업 기록입니다. CER(Char Error Rate) 기반의 반복적 얼라인 알고리즘과 안전장치 논의, 그리고 Triton 서버 연동을 통한 ITN worker 구현 계획이 포함되어 있습니다.

Key Points

  • 일본어 ASR: 단어 단위 dializer/segmentation 시스템 구축 필요성 제기
  • 얼라인 알고리즘: CER 임계값 기반의 while 루프를 통해 큐에서 단어를 추출하여 어터런스 텍스트를 교정하는 방식 제안
  • 안정성 고려사항: 무한 루프 방지 및 원본 데이터 복원 가능성 검토
  • ITN 파이프라인: 다드미(Dadumi) 우선순위 상향, Sentence 객체 기반 itn.run() 구현 및 Triton 서버 연동 작업 진행
  • 인프라: AWS T4 및 로컬 3090 환경에서의 모델 컴파일 및 BMT 동작 확인