2023-08-22 작업 일지: 일본어 데이터 전처리 및 Pronaia 테스트 환경 구축

Source

  • Field Notes/ReturnZero/Daily Notes/Day 783. 2023-08-22.md

Summary

이 노트는 2023 년 8 월 22 일의 작업 일지로, 주로 일본어 데이터 (qoo10 등) 의 텍스트 전처리 규칙 (숫자, 영문자, 특수문자 처리) 정립과 Pronaia 프로젝트의 테스트 환경 (Statefulset, DB, 메시지 큐 등) 세팅 과정을 기록하고 있다. 또한 MWW 유베이스 환경 검토, license server 작업, Dan 과의 1on1 미팅, 문서화 도구 검토 등 다양한 사소한 업무 항목이 나열되어 있다.

Key Points

  • 일본어 데이터 전처리 규칙 논의: 한글자 숫자/영문자 간 쉼표 삭제, 문장부호 띄어쓰기, 동글뱅이 처리 방식 등
  • Pronaia 테스트 환경 구축: MariaDB, MongoDB, RabbitMQ, Redis, Worker, Triton, VAD/ASR/ITN 서비스 세팅 및 실행 문제 해결
  • MWW 프로젝트: 유베이스 환경 (k8s, efs) 검토, 현대캐피탈 환경과 동일성 확인
  • 기타 업무: license server(IAC) 레이블 정리, Dan 과의 1on1(타입캐스트 논의), 문서화 도구 (ReadTheDocs 등) 검토