ITN 파이프라인 통합 및 일본어 정규화 작업 현황 (Day 602)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 602. 2023-02-22.md

Summary

2023 년 2 월 22 일 일일 노트로, ReturnZero 프로젝트의 ITN(Inverse Text Normalization) 파이프라인 통합과 일본어 rt-norm 처리를 위한 작업 목록을 기록하고 있다. 2 월 말 연동을 목표로 디렉토리 구조 재편 (model-repo, deploy, test 등) 과 모듈 통합 (spacer, neural_itn) 을 계획 중이며, 하이라이터 규칙 수정 (통화, 약한 확언 표현 등) 과 화자 분리 (Diarization) 평가 코드 리뷰 요청 사항도 포함된다. 또한 Arthur 의 인사이트로 화자 분리 안정성과 다국어 지원의 시급성이 강조됨.

Key Points

  • ITN 파이프라인 통합: 2 월 말 연동 목표 하에 디렉토리 구조 (model-repo, deploy, test 등) 재편 및 spacer/neural_itn 모듈 통합 계획
  • 일본어 rt-norm 작업: 소수점, 분수, 시간 표현, 영단어 처리 등 정규화 규칙 정의 및 매핑 변환 전략 수립
  • 하이라이터 규칙 개선: 통화 표현 (~짜리, 억, 원) 처리 및 ‘될 것 같아요’ 등 약한 확언 표현 (confirm_as_good_weak) 추가 검토
  • 기술적 이슈 및 리뷰: Diarization cpCER 평가 코드 리뷰 요청 (Arthur), detokenizing 분리 및 timestamp align 구현 계획
  • 비즈니스 인사이트: Arthur 의 피드백으로 화자 분리 안정성과 다국어 지원이 요약 정리보다 시급한 과제로 지목됨