일본어 TTS 기반 학습 및 주소 전사 실험 노트

Source

  • Field Notes/ReturnZero/Daily Notes/Day 709. 2023-06-09.md

Summary

이 노트는 일본어 음성 인식(ASR) 모델 학습 실험과 관련된 일기 형식의 기록이다. TTS(문자음성합성) 데이터만으로 학습한 모델의 성능(CER)이 매우 낮아 ‘시망’이라고 평가하며, v2 모델의 파라미터 수와 실행 시간(RTF)을 기록한다. 또한, 일본어 주소 전사 시 발생하는 토크나이징 오류(특히 ‘시구정촌’ 관련 지명)와 검색 로직의 한계를 분석하고, 뒤에서부터 검색하는 대안적 접근법의 가능성을 검토하지만 부정적인 결론을 내린다. 마지막으로 Punctuator 모델의 TRT 변환 어려움과 ONNX 서빙 테스트 계획을 메모한다.

Key Points

  • TTS 데이터만으로 학습한 일본어 ASR 모델의 CER(문자 오류율)이 31.95% ~ 42.41%로 매우 높음
  • v2 모델 파라미터 수: 약 1.06억, RTF: 0.0017
  • 일본어 주소 전사 시 ‘시구정촌’ 등 행정구역 명칭이 포함된 지명에서 토크나이징 오류 발생
  • 주소 검색 로직 개선 시도: 뒤에서부터 검색하여 행정구역 경계를 구분하는 방식 검토 (결론: 비효율적)
  • Punctuator 모델의 TensorRT 변환 어려움(opset 17)으로 인해 ONNX 서빙 테스트 계획 중