Day 931. 2024-01-18

Source

  • Field Notes/ReturnZero/Daily Notes/Day 931. 2024-01-18.md

Summary

본 노트는 음성 인식 모델(Wav2Vec, Fairseq)의 양자화(Quantization) 실전 적용을 위한 기술 조사와, 사용자 음성 성문 기록 자동화 및 시각화 개선 아이디어를 기록한 일기 형식의 메모입니다. HuggingFace와 Fairseq 모델의 PTQ(Post-Training Quantization) 방식 차이, ONNX/OpenVINO/NNCF 변환 파이프라인, 그리고 INT8 모델의 Dynamic Shape 지원 여부를 확인하는 과정이 주를 이룹니다.

Key Points

  • 음성 모델 양자화 실전: HuggingFace(load_in_8bit)와 Fairseq/OpenVINO 파이프라인 비교 조사
  • OpenVINO 양자화 워크플로우: PyTorch -> ONNX -> OpenVINO -> NNCF(캘리브레이션 데이터셋 필요)
  • 기술적 의문점: Fairseq와 HuggingFace 모델의 PTQ 방식 차이, LogMel vs Wav2Vec 입력 형태 처리, INT8 모델의 Dynamic Shape 지원 여부
  • 성문 기록 자동화: 사용자 발화 패턴 분석 및 시각화 차별화(폰트, 시야각 등) 아이디어 구상