통합 ITN 인터페이스 통일 및 일본어 프로젝트 일정 조정

Source

  • Field Notes/ReturnZero/Daily Notes/Day 603. 2023-02-23.md

Summary

이 노트는 ReturnZero 프로젝트의 Day 603 일지로서, 통합 ITN(Inverse Text Normalization) 인터페이스의 표준화 작업(세그먼트를 발화 단위로 변환하는 로직 정의)과 일본어 음성 인식 프로젝트의 일정 변경(4월 중순으로 앞당겨짐)에 대한 대응 방안을 기록하고 있다. 또한, 디아라이제이션 평가 코드 리뷰 요청, 일본어 공개 데이터셋 크롤링 계획, 그리고 프리트레이닝과 파인튜닝의 병렬 진행 전략을 포함한다.

Key Points

  • ITN 인터페이스 통일: 세그먼트(segment)를 발화(utterance) 단위로 변환하는 로직(segment_to_turn, divide_df_by_turn 등)을 정의하고, 입력/출력 구조(sp_k_id, msg_info 등)를 표준화함.
  • 일본어 프로젝트 일정 변경: 납품 시기가 5월 중순에서 4월 중순으로 약 6주 앞당겨짐에 따라, 노말라이즈 규칙 수정을 최우선으로 하고 프리트레이닝과 파인튜닝을 병렬로 진행하는 전략 수립.
  • 데이터셋 관리: 일본어 공개 데이터셋(JTubeSpeech, CSJ 등) 크롤링을 Orisa 환경에서 진행하며, 내부 보유 데이터셋(CSJ, ETRI 등)과 병행. 공개 데이터셋 수집에 과도한 시간을 할애하지 않음.
  • 기타 작업: 디아라이제이션 cpCER 평가 코드 리뷰 요청(Arthur), 하이라이터 기능 테스트 진행.