통합 ITN(다듬이) 아키텍처 및 프로젝트 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 600. 2023-02-20.md

Summary

본 노트는 ‘통합 ITN(다듬이)’ 프로젝트의 디렉토리 구조 설계, Triton 기반 배포 전략, 그리고 관련 데이터 수집 및 모델 개선 논의 내용을 기록한 회의록이다. 일본어 ITN 딜 타결을 위한 리소스 투입 계획, 크롤링 데이터의 라이선스 및 활용 방안, 띄어쓰기 교정(GEC) 오류 개선 방안(규칙 기반 후처리 vs 파인튜닝) 등이 논의되었다. 특히 통합 ITN 모듈의 디렉토리 구조(model-repo, deploy, test, dadumi)와 Triton Ensemble/BLS worker로의 전환 방향이 구체화되었다.

Key Points

  • 통합 ITN(다듬이) 프로젝트의 디렉토리 구조 설계: model-repo, Triton model, deploy, test, dadumi(실제 모듈)로 구성
  • 배포 아키텍처 변경: 기존 ITN worker에서 Triton Ensemble/BLS worker로 전환, 호환성 유지 목표
  • 일본어 ITN 전략: 제한된 리소스(Phase 1, 2*2)로 아미보이스 수준 성능 도출 및 딜 타결 목표
  • 데이터 수집 논의: 크롤링 데이터의 라이선스 문제 고려 vs 평가셋 활용 가능성, 학습용 데이터 확보
  • 띄어쓰기 교정(GEC) 개선: 규칙 기반 후처리의 한계 지적, Kiwi 토크나이저 적용 시 규칙 적용 필요성, 오류 케이스 기반 파인튜닝 검토
  • 모델 사전학습 논의: fairseq를 활용한 KLUE-RoBERTa 대화체 데이터 사전학습 가능성 검토