일본어 ASR 데이터 전처리 및 Pronaia 메시지 구조 정의

Source

  • Field Notes/ReturnZero/Daily Notes/Day 782. 2023-08-21.md

Summary

이 노트는 일본어 ASR 시스템의 데이터 전처리(validation, normalization) 과정에서 발견된 치명적 버그와 개선 방향(숫자 변환, 영문자 철자 전사, 도메인명 발음 처리 등)을 기록하고 있다. 또한 Pronaia 프로젝트의 메시지 구조(JSON 스키마) 정의와 직렬화(serializer) 통일 필요성을 논의한다.

Key Points

  • 일본어 ASR 데이터셋 생성 파이프라인에서 normalization 문제와 치명적 버그 존재 확인
  • 데이터 정제 전략: 숫자(한자→아라비아), 영문자(대문자 철자 전사, 소문자 제외 또는 대문자화), 도메인명(www, com 등)의 발음 규칙 적용
  • Pronaia 메시지 구조 정의: spk_id, 시간 정보, is_ars 플래그, msg_info(words 배열 포함) 스키마 제안
  • 시스템 간 통일성을 위해 시리얼라이저와 필드명(Message, Duration 등) 표준화 필요성 제기