Day 1015: 음성 전처리 교정 및 LLM 임베딩 학습

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1015. 2024-04-11.md

Summary

2024-04-11 일지. 주요 작업으로 pysommers normalizer 교정, Mecab 기반 형태소 분석을 통한 영단어 분리 개선, VAD 기반 음성 구간 분할 문제(부정확한 구간 길이) 해결을 시도함. 테스트 데이터 검증(dadumi 검수) 및 OpenVino 빌드 고려 사항 기록. 또한 LLM/MLM 학습 차원에서 PyTorch nn.Embedding 파라미터(num_embeddings, embedding_dim, padding_idx) 의미, Positional/Word Embedding 생성 방식, nn.Dropout 과적합 방지 원리, 그리고 Positional과 Word Embedding의 합산 의미에 대한 학습 내용 포함.

Key Points

  • 음성 전처리 파이프라인 개선: pysommers normalizer 교정 및 Mecab 활용 형태소 분리로 영단어 뭉침 현상 해결 시도
  • 음성 분할(VAD) 이슈: VAD 구간 기반 분할 시 225byte 등 비정상적 구간 생성 및 길이 편차 문제 발생
  • LLM 임베딩 기초 학습: PyTorch nn.Embedding의 3가지 주요 파라미터(num_embeddings, embedding_dim, padding_idx) 및 동작 원리 정리
  • 임베딩 구조 이해: Positional Embedding(max_position_embeddings 기준)과 Word Embedding(vocab 크기 기준)의 차이 및 두 벡터 합산의 의미 탐구
  • 과적합 방지: nn.Dropout의 베르누이 분포 기반 무작위 0화 원리 학습
  • 인프라/테스트: dadumi 검수 진행, OpenVino 직접 빌드 고려, nerdctl을 통한 online_bmt 테스트 실행