TMN 음성 인식 오류 분석 및 개선 과제 (2024-04-09)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1013. 2024-04-09.md

Summary

본 노트는 TMN(Telephony Machine Network?) 음성 인식 시스템의 일본어 전사 오류 패턴을 상세히 분류하고, 이를 바탕으로 모델 개선 방향을 논의한 기록입니다. 주소, 생년월일, 전화번호, 이름 등 주요 필드별로 ‘변환 미스’, ‘인식 실패’, ‘문자 혼동(히라가나/가타카나/한자/숫자)’ 등의 오류 유형을 열거했습니다. 특히 주소 인식에서 한자 및 가타카나 처리의 어려움, 이름 인식에서 WFST 그래프 누락으로 인한 오류(9,000건 미태그 데이터), 전화번호의 발음 길이 및 소음 영향 등을 주요 이슈로 꼽았습니다. 또한 엔진 교체 준비, CPU 리소스 과다 사용(LM 영향 추정), 아미보이스 모델 정확도 평가, TTS 샘플 테스트 등 향후 실행 계획과 기술적 고려사항을 포함하고 있습니다.

Key Points

  • 일본어 음성 인식 오류 패턴 분류: 주소, 생년월일, 전화번호, 이름 필드별 구체적인 오류 유형(변환 미스, 인식 불가, 문자 혼동 등) 도출
  • 주소 인식 난제: 한자, 가타카나, 히라가나 간 변환 실패 및 번지 구분 부정확성. CER(문자 오류율) 수준에 따라 우세한 오류 유형이 상이함
  • 이름 인식 개선 필요성: WFST 그래프에 포함되지 않은 흔한 이름으로 인한 오류 발생. 미태그 데이터 9,000건 회송 및 재분석 필요
  • 전화번호 인식 이슈: 발음 길이(길게 말함)에 의한 추가 전사, 소음 혼입, 숫자 오인식(7->9, 5->9) 등
  • 시스템 및 인프라 논의: 엔진 교체 사전 작업 진행 중, CPU 리소스 과다 사용 문제(LM 영향 추정) 및 g4dn.2xlarge 인스턴스 검토
  • 모델 평가 및 테스트: 아미보이스 이름 모델 정확도 수준 확인, 가타카나 엔진 실서비스 가능성 검토, 업무별 특정 발화 테스트 범위 설정
  • Normalizer 개선: Mecab 적용 검토 및 구두점 처리 우선순위 논의