NLP4STT 프로젝트 방향성 및 평가 지표(TER/TCER) 구현 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 546. 2022-12-28.md

Summary

이 노트는 NLP4STT 프로젝트의 1개월 방향성 재정의와 평가 지표인 TER(Target Error Rate) 및 TCER(Target Character Error Rate)의 알고리즘 구현 분석을 다룹니다. 프로젝트 리소스 제약(Dan의 전념)으로 인해 Kiwi 모델의 추가 학습은 보류하고 룰 튜닝에 집중하며, 배포 파이프라인 최적화(ITN, 띄어쓰기 경량화)와 E2E 학습 전처리를 주요 산출물로 설정했습니다. 또한, 기존 단어 단위 비교를 구간(range) 지정 비교로 개선하기 위해 pysommers 라이브러리의 compute_ter 함수와 Ahocorasick 오토마톤 기반의 에디트 디스턴스 계산 로직을 상세히 분석하고 있습니다.

Key Points

  • 프로젝트 현황: 핵심 인력(Dan)의 다른 프로젝트 전념으로 NLP4STT 프로젝트가 일시적 무력화 상태이나, 스크럼 진행 및 PoC 배포 파이프라인 구축을 목표로 함.
  • 모델 전략: Kiwi 모델의 추가 학습은 잠정 보류하고 룰 튜닝에 집중. ITN 및 띄어쓰기 모델은 distillation 등을 통한 경량화 최적화 필요.
  • 평가 지표 개선: 기존 단어 검색 비교 방식을 구간(range) 지정 비교 방식으로 포팅하기 위해 pysommerscompute_ter 함수 분석 진행 중.
  • 알고리즘 분석: Ahocorasick 오토마톤을 이용해 참조문(ref) 내 목표 단어(target words)의 시작/끝 위치를 매핑하고, Levenshtein alignment 결과를 바탕으로 삽입(I), 삭제(D), 대체(S) 연산 시 목표 단어의 에러 카운트(wec)를 정확히 집계하는 로직을 추적 중.
  • SetFit Zero-shot: Klue 기반 Sentence Transformer의 Amazon 데이터셋 성능 한계 확인 및 add_templated_examples() 함수와 샘플 사이즈(N=8 권장) 관련 실험 기록 포함.