2023-03-13 작업 현황 및 다듬이/일본어 STT 이슈

Source

  • Field Notes/ReturnZero/Daily Notes/Day 621. 2023-03-13.md

Summary

2023 년 3 월 13 일 기준 ReturnZero 프로젝트의 일일 작업 현황을 기록한 노트입니다. 주요 내용은 qoo10 rtboost 완료, NLP4STT 모듈 (rt-neural-itn, rt-gec) 의 버그 수정 및 병합 검토, 그리고 ‘다듬이’ 프로젝트의 숫자/단위 병합 로직 개선 (앵커 인덱스 방식 고려) 입니다. 또한 일본어 STT 학습 데이터 수집을 위한 테스트 엔진 선정, 인명/주소/모델명 처리 방안, 발음 기호 표기 규칙, 그리고 3 월 20 일 시작 예정인 500 시간 분량 데이터 수집 일정과 관련 질문들을 정리하고 있습니다.

Key Points

  • qoo10 rtboost 작업 완료 및 rt-norm 학습 데이터 정제 진행 중
  • NLP4STT: rt-neural-itn 버그 수정 완료, rt-gec 병합 전 구두 확인 필요
  • 다듬이: ‘천/백/킬로그램’ 등 중간 단위 포함 시 중복 반영 방지를 위한 앵커 인덱스 기반 병합 로직 검토
  • 일본어 STT 데이터 수집: 테스트 엔진 (Vito/Google) 선정, 인명/주소/모델명 처리 가이드라인 필요
  • 일본어 데이터: 주소의 가타카나 전사 vs 한자 병기 방식 명확화, 실제 발화 인식 오류 체크 방법 논의
  • 일정: 3 월 20 일 시작, 4 월 말 완료 예정, 총 500 시간 분량 발화 시료 수집 목표