Kiwi 기반 Ainu/AICT 문장 띄어쓰기 벤치마크 및 워커 컨테이너 테스트

Source

  • Field Notes/ReturnZero/Daily Notes/Day 539. 2022-12-21.md

Summary

이 노트는 Kiwi(KiwiPiePy) 라이브러리를 사용하여 Ainu 및 AICT 데이터셋의 문장 띄어쓰기(spacing) 성능을 벤치마킹한 결과를 기록한다. 기본 모델과 커스텀 모델(ModelGenerator)의 정확도(F1 등)와 처리 시간을 비교하며, Ainu 데이터셋에서 커스텀 모델이 성능 향상을 보인 것을 확인했다. 또한 워커 컨테이너 시험 성공과 전화번호 포맷 관련 코드 리팩토링(digit/telephone-post 역할 교체)을 언급한다.

Key Points

  • KiwiPiePy를 활용한 Ainu 및 AICT 데이터셋의 문장 띄어쓰기 벤치마크 수행
  • 기본 Kiwi 모델 vs 커스텀 Kiwi 모델(ModelGenerator) 성능 비교
  • Ainu 데이터셋에서 커스텀 모델 적용 시 F1 점수 향상(0.917 -> 0.906 유지/향상 추세, baseline 대비 개선)
  • 워커 컨테이너 시험 성공
  • 전화번호 포맷 처리 로직 리팩토링: digit과 telephone-post 역할 교체 및 ’-’ 기호 추가