Day 187. 2022-01-03

Source

  • Field Notes/ReturnZero/Daily Notes/Day 187. 2022-01-03.md

Summary

리서치 팀 배정 첫날, VAD(Voice Activity Detection) 및 실시간 STT 프로젝트 현황 파악을 시작했다. Moses(VAD) 시스템의 고도화 목표(화자 수 예측, 사용자 발화 검출, 고해상도 오디오 지원, Speech Enhancement)와 기존 모델(CNN_MIL, PyanNet 등) 기반 Online Inference 구현, Triton 서빙 도커 빌드 및 성능 평가(DCF 지표, 응답시간 0.3초 이하)를 주요 작업으로 설정했다.

Key Points

  • 리서치 팀 배정 및 프로젝트 현황 파악 시작
  • VAD 및 실시간 STT 모델 개발: 기존 모델(CNN_MIL, PyanNet, RNN-denoise) 기반 Online Inference 구현
  • 성능 지표: DCF(FPR 1/4 + FNR 3/4), 응답시간 0.3초 이하 목표
  • Moses(VAD) 시스템 고도화: 화자 수 예측(N>2), 사용자 발화 검출(VoxSRC 기반), 고해상도 오디오 지원, Speech Enhancement(denoising, AEC, Dereverbration)
  • 배포 준비: Triton 서빙 도커 빌드, vito-worker 분석