ReturnZero Day 532: Kiwi 모델 검증 및 일본어 숫자 태깅 규칙 분석

Source

  • Field Notes/ReturnZero/Daily Notes/Day 532. 2022-12-14.md

Summary

이 노트는 ReturnZero 프로젝트의 532일차 작업 기록으로, Kiwi 모델의 성능 검증과 일본어 숫자 처리 규칙 분석을 다룬다. 주요 내용으로는 skipbigram 로스 계산 확인, VTS 코퍼스 기반 모델 테스트(WER 측정), 그리고 일본어 숫자(한자/가나 혼용, 예외 처리 등)에 대한 태깅 규칙 수정 사항과 고민 사항이 기록되어 있다.

Key Points

  • Kiwi 모델 검증: skipbigram 로스 계산 정상화 확인 및 VTS 코퍼스 생성을 통한 모델 테스트 진행.
  • 일본어 숫자 태깅 규칙: 자릿수별 태깅 현상 확인 및 number_hanja/number_kana 변환 로직 검토.
  • 예외 처리 논의: ‘이삼프로’ 등 특수 케이스 제거 가능성, ‘점’의 발음 처리, teen/age 관련 태그 필요성 분석.
  • 작업 현황: 클로바 전사록 입력 처리 구현, FST 프루닝 옵션 고려, 시간 정보 복원 미완료.