일본어 데이터 전사 비교 및 정규화 로직 수정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1555. 2025-10-02.md

Summary

일본어 데이터의 인풋텍스트, 코드 전사, default 전사 간 비교 분석을 진행하며, 특히 슬래시와 괄호 처리를 위한 정규화 로직 수정을 논의한다. 데이터 생성 시점(약 20 시)과 invalid data 검토, 그리고 input_text 품질이 낮더라도 hyp1 CER 기준으로 비교하여 데이터를 포함하는 방향성을 제시한다.

Key Points

  • 일본어 데이터셋에서 인풋텍스트, 코드 전사, default 전사의 비교 분석 수행
  • 슬래시(/) 및 괄호() 처리를 위한 정규화 로직 수정 필요성 제기
  • invalid data 추출 및 검토 계획
  • input_text 품질 문제에도 불구하고 hyp1 CER 기준으로 데이터 포함 여부 결정