일본어 TMN 회의 및 팀벨 클러스터 작업

Source

  • Field Notes/ReturnZero/Daily Notes/Day 887. 2023-12-04.md

Summary

일본어 음성 인식(TMN) 모델의 특수 문자 및 숫자 처리 전략을 논의한 회의록이다. 괄호는 무시하거나 띄어쓰기로 대체하고, 모델명에서 ‘Q’를 제외하며, 긴 숫자(카드번호, 전화번호 등)는 3~4자 단위로 띄어쓰기를 삽입하기로 결정했다. 테스트셋 구성 및 개발계 배포 계획도 포함된다. 하단에는 팀벨 클러스터에 Triton Server 이미지를 가져오는 명령어가 기록되어 있다.

Key Points

  • 일본어 TMN 모델 학습 시 괄호 처리: 괄호 읽기 포기, 띄어쓰기로 대체 또는 제거
  • 숫자 데이터 처리: 모델명에서 ‘Q’ 제외, 긴 숫자(카드, 전화, 우편번호 등)는 3~4자 단위 띄어쓰기 삽입
  • 테스트셋 구성: TMN에서 제작, 잘못 읽은 데이터 제외, 개발계에서 테스트 진행
  • 일정: 이름 모델은 이번 주까지, 개발계 배포 예정
  • 인프라 작업: 팀벨 클러스터에 tritonserver-230824.tar 이미지 import