오전 업무 스몰토크 (Day 597)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 597. 2023-02-17.md

Summary

NLP 모델 학습 중 띄어쓰기 False Positive(FP) 감소 추세와 디코딩 예외처리 로직 간소화 가능성을 논의함. 토큰 단위 처리 시 첫 문자 처리의 필요성 및 ‘두건’ 처리 개선 사항 확인. 또한 gop 기반 음주 측정 아이디어와 HuggingFace 토크나이저 내재화 vs 외부 참조에 대한 디렉토리 구조 변경 논의가 이루어짐.

Key Points

  • 학습 진행(30 epoch 중 10 epoch 부근 수렴)에 따라 띄어쓰기 FP 감소 예상, 디코딩 예외처리 로직 불필요해질 수 있음
  • 토큰 단위(1 문자) 처리 시 첫 문자 처리 로직은 여전히 필요할 수 있음
  • 특정 단어(‘두건’) 처리 개선 확인
  • gop 기반 음주 측정 아이디어(문장 발음 어눌함 기준) 및 Kalidi 모델 모바일 탑재 가능성 논의
  • 배포 시 토크나이저 처리 방식 논의: HuggingFace 외부 참조보다 내재화가 유리할 수 있음
  • 모델 디코더는 외부에서 가져오는 방식 유지 검토