일본어 가타카나 인식에서 음절 절단 문제 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 896. 2023-12-13.md

Summary

일본어 가타카나 이름 인식 모델에서 발생하는 음절 절단(truncation) 문제를 해결하기 위해 VAD(Voice Activity Detection) 임계값 조정 실험을 진행함. VAD 임계값을 낮추거나 제거해도 절단 오류(del)가 근본적으로 개선되지 않아, VAD가 원인이 아님을 확인함. 대신 학습 데이터 세그먼트 오류나 모델의 최대 입력 길이 제한(max_wav_len) 등 다른 요인을 의심하며, 과잉 인식(ins)이 증가하는 현상과 함께 추가 데이터 분석 필요성을 제기함.

Key Points

  • 일본어 가타카나 인식 시 높은 SER(30% 이상)과 절단 오류(del) 발생
  • VAD 임계값 조정(0.3, 0.1, 제거) 실험 결과, 절단 문제 해결에 유의미한 개선 없음
  • VAD 제거 시 CER는 감소(11% -> 4.6%)하지만 절단 오류 패턴은 유사하게 유지
  • VAD를 원인으로 지목하기 어려우며, 학습 데이터 세그먼트 오류 또는 모델 아키텍처 제한(max_wav_len) 등 다른 원인 조사 필요
  • 절단 오류가 아닌 과잉 인식(ins)이 증가하는 사례도 확인됨