NLP4STT 이슈 및 Few-shot/RL 모델 서빙 고민

Source

  • Field Notes/ReturnZero/Daily Notes/Day 547. 2022-12-29.md

Summary

본 노트는 NLP4STT 프로젝트의 띄어쓰기 및 ITN(Inverse Text Normalization) 평가 지표 설정, 일본어 전사 시 히라가나/한자 처리 문제, 그리고 사용자별 라벨이 필요한 Few-shot Learning 및 Reinforcement Learning 모델의 실제 서빙(Serving) 및 개인화 전략에 대한 기술적 고민과 AI 답변을 기록한 것이다.

Key Points

  • NLP4STT 평가: 띄어쓰기는 F1 점수, ITN은 레벤슈타인 거리(_tcec)를 메트릭으로 고려 중. 띄어쓰기 경계 모호성 처리 필요.
  • 일본어 ITN 이슈: 히라가나 위주 전사로 ITN 실패 확인. 해결책으로 한자 전사 학습 또는 히라가나 숫자 전사 학습 검토. MeCab 동작 불안정 가능성 언급.
  • Few-shot/RL 서빙 아키텍처: 사용자별 라벨 커스터마이징이 필요한 텍스트 분류 모델의 서빙 방법 논의. Flask/Django 기반 서버 구축, 사용자 라벨 입력 인터페이스, 캐싱/프리프로세싱 고려.
  • 개인화 전략: Few-shot은 사전 학습 모델의 파인튜닝, RL은 사용자 피드백(클릭/평가)을 통한 보상 업데이트를 통한 모델 적응 방식 비교.