3i4k 데이터 정제 문제점과 Python Ellipsis/FastAPI 학습

Source

  • Field Notes/ReturnZero/Daily Notes/Day 362. 2022-06-27.md

Summary

3i4k 데이터셋에서 물음표 포함, 끊긴 발화, 짧은 발화 등 노이즈가 많다는 문제를 발견하고 정제 방안을 고민함. 또한 Python Ellipsis(…) 의 공식 사양이 아닌 numpy/FastAPI 특수 용법(필수 파라미터 명시 등) 을 학습하고, 웹서버와 후처리기를 통합하는 아키텍처 변경을 고려함. WFST 기반 질문 - 답변 감지기 베이스라인 구축을 계획함.

Key Points

  • 3i4k 데이터 정제 필요성: 물음표 발화, 끊긴 발화, 짧은 발화 등 노이즈 식별 및 정제 전략 수립 필요
  • Python Ellipsis(…) 용법: numpy 다차원 인덱싱 및 FastAPI 필수 파라미터 정의 (Query(…)) 에 사용됨
  • 아키텍처 단순화: HTTP 요청 처리를 위해 별도 웹서버 분리 없이 통합 구성 고려
  • 프로젝트 계획: WFST 기반 질문 - 답변 감지기 베이스라인 및 Pronaia 활용 토이 프로젝트 진행