NLP4STT 점검: ITN, TER 메트릭 및 테스트셋 구축

Source

  • Field Notes/ReturnZero/Daily Notes/Day 551. 2023-01-02.md

Summary

NLP 기반 STT 시스템의 품질 평가를 위해 띄어쓰기 및 ITN(Inverse Text Normalization) 테스트셋 구축과 평가 메트릭(TER/CER) 개발을 진행 중임. 특히 일본어 STT의 ITN 처리(히라가나 등)와 CER 기반 TER 계산 시 원본 문자열의 공백 제거 및 범위(range) 매핑 로직의 복잡성으로 인해 계산 오류가 발생하여 디버깅 중임.

Key Points

  • NLP4STT 프로젝트의 띄어쓰기 및 ITN 테스트셋 제작 진행 중
  • 일본어 STT의 ITN 처리(히라가나 등)에 대한 검토 필요
  • CER(Character Error Rate) 기반 TER(Translation Edit Rate) 메트릭 구현 시도
  • CER 변환 시 공백 제거 및 형태소 구분자(’|’) 추가 로직 적용
  • 원본 문자열의 인덱스 범위(range)를 공백 제거된 문자열의 범위로 매핑하는 알고리즘 설계
  • 범위 매핑 로직의 복잡성으로 인해 TER 계산 결과 오류 발생 및 재검토 중