2023-03-04 작업 진행 사항 (NLP4STT, 일본어 데이터셋, rt-dadumi)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 612. 2023-03-04.md

Summary

2023 년 3 월 4 일의 작업 일지로, 신한은행용 NLP4STT 모델 컴파일 및 PR 완료, 일본어 데이터셋 어노테이션 및 normalizer(WFST) 준비, rt-dadumi 프로젝트의 timestamp 복구 및 디토크나이징 이슈 해결 시도 등을 기록함.

Key Points

  • NLP4STT: 신한은행용 모델 컴파일, Triton 준비, 변경사항 PR 완료
  • 일본어 데이터셋: Qoo10 rtoost화 진행 중, Rx/Tx 어노테이션 및 시간 정보 추출 작업 필요
  • 일본어 normalizer: WFST 구축 및 가타카나 변환기 탐색
  • rt-dadumi: timestamp 기반 의미 처리 객체 (sentence) 생성 및 levenshtein align 구현
  • rt-dadumi 이슈: 디토크나이징 과정에서 | 구분자 처리 오류 발생, 토큰 합치기 로직 수정 필요