음성 분리(Speech Separation) 프로젝트 기술 면접 및 모델 경량화 검토

Source

  • Field Notes/ReturnZero/Daily Notes/Day 994. 2024-03-21.md

Summary

본 노트는 ‘Sleep sound’ 프로젝트의 음성 분리 과제에 대한 채용 면접 기술 질의응답 내용을 기록한 것이다. 주요 논의 사항으로는 다인 음성 데이터 부족 문제, RIR 기반 합성 데이터의 한계(노이즈 반영 부족, 짧은 소리 인식 어려움), 하이패스 필터링을 통한 데이터 수집 방식 변경 등이 포함된다. 또한 C-lab의 영상 내 소리 분리 기술(WHAM/WHAMR)을 참고하여 Mamba 아키텍처 도입, 양자화(8bit), 프루닝 등을 통한 모델 경량화 전략과 SI-SNR 지표에 대한 검토 내용을 담고 있다.

Key Points

  • 과제 정의: 근접 음성 증폭을 통한 Speech Separation
  • 데이터 이슈: 다인 음성 데이터 부족, RIR 합성 데이터의 현실 노이즈 반영 한계, 임베딩 기반 지문 유사도의 짧은 소리 인식 한계
  • 데이터 수집 전략: 저대역 제거 및 고대역 유지(하이패스 필터), 6개월간 수집 및 어그먼테이션 병행
  • 모델 경량화: WHAM/WHAMR 참고, Mamba(어텐션 교체), 양자화(32->8bit), 프루닝(26M->1.xM 파라미터)
  • 평가 지표: SI-SNR (Scale Invariant Signal-to-Noise Ratio)