일본어 qoo10 음성 전사 및 정렬 문제 해결 시도

Source

  • Field Notes/ReturnZero/Daily Notes/Day 679. 2023-05-10.md

Summary

일본어 음성 데이터(qoo10)의 전사 결과와 형태소 분석 결과(Mecab) 간의 단위를 일치시켜 문자 오류율(CER)을 계산하는 과정에서 발생하는 정렬(alignment) 오류를 해결하기 위한 시도입니다. 특히 숫자, 영문자(가타카나 변환), 특수문자(@ 등)의 전사 실패로 인한 삽입(insertion)/삭제(deletion) 오류가 누적되어 문장 단위의 정렬이 무너지는 문제를 겪고 있으며, 이를 해결하기 위한 다양한 전처리 및 알고리즘 수정(Levenshtein distance 기반)을 시도 중입니다.

Key Points

  • 문장 단위 정렬 실패: Mecab 형태소 단위와 음성 전사 결과 단위가 불일치하여 Levenshtein 비교 시 오류가 누적됨.
  • 특수 문자 및 숫자 전사 문제: 숫자(‘1’ vs ‘하나’), 영문자(‘gmail’ vs ‘지메일’), 특수문자(’@’ vs ‘앳 마크’)의 전사 오기로 인해 insertion/deletion 오류가 발생.
  • 알고리즘 수정 시도: edlib의 길이 제한(256 글자)을 피하기 위해 python-levenshtein으로 변경 시도 및 character-level alignment 로직 재구성.
  • 데이터 파이프라인: qoo10 데이터셋(audio, annotation)을 기반으로 word_timestamp를 그룹핑하고 Mecab으로 띄어쓰기 처리하여 정렬 정확도 향상 시도.
  • 대안 모색: ChatGPT 활용 또는 일부 데이터 버리기 등 비정형적 해결책 고려 중.