Day 203: Sommers Dataset Testing & Detokenization Issues

Source

  • Field Notes/ReturnZero/Daily Notes/Day 203. 2022-01-19.md

Summary

2022-01-19 일지. Sommers 데이터셋을 Ark 포맷으로 읽으며 소규모 테스트는 성공했으나, CER(문자 오류율) 계산 시 ’|’ 토큰 처리 문제로 인해 결과가 왜곡되는 상황. 이를 해결하기 위해 디토크나이징(rt-tokenizer) 도입을 시도했으나 Python 버전 호환성(bz2 모듈 누락) 문제로 실패. 대안으로 Docker 환경 내 디토크나이징 또는 Callback 구현을 고려 중. 또한 Triton 개발 중 Decoder 이해 부족, Kaldi 오프라인 테스트 진행, 그리고 Project-K 참관(발음/뉘앙스 평가, HuBERT 등 최신 모델 연구 동향 공유) 내용을 기록함.

Key Points

  • Sommers 데이터셋 Ark 포맷 읽기 성공 (서버 안정적)
  • CER 계산 오류 원인: 출력물에 ’|’ 토큰이 붙어 있어 정답지 비교 시 불일치 발생
  • rt-tokenizer 설치 실패 (Python 3.6.9 -> 3.10 업그레이드 시도 중 bz2 오류)
  • 해결 방안 모색: Docker 이미지 내 디토크나이징 설치 또는 Callback 단계에서 처리
  • Triton 개발 진행 중 Decoder 부분 이해도 부족
  • Project-K 참관: Conformer, Hybrid CTC/Attention, wav2vec 2.0, HuBERT 등 최신 음성 인식 모델 및 평가 방법론(스펙트로그램, 에너지 비교) 논의