ReturnZero 리서치 프로젝트 현황 (2022-01)

Source

  • Field Notes/ReturnZero/리서치 프로젝트 현황 파악 - 20220103.md

Summary

2022년 1월 기준 ReturnZero 팀의 음성 인식(STT) 관련 리서치 프로젝트들의 진행 현황을 정리한 필드 노트입니다. 주요 프로젝트로는 실시간 VAD 모델 개발(RNN-denoise 등), 화자 구분(SD) 및 발화자 수 예측 고도화(Moses v3), Kaldi 기반 STT 엔진 개선(Sommers v5, WFST/ClassLM 도입), 역텍스트 정규화(ITN) 파이프라인 구축, 그리고 기존 Kaldi 기반 시스템을 대체할 E2E ASR 모델(ESPNet/SpeechBrain) 벤치마킹 등이 포함됩니다. 각 프로젝트의 담당자, 기술 스택, 목표 및 현재 고민거리(예: 알고리즘 선택, 데이터 처리 방식)가 나열되어 있습니다.

Key Points

  • VAD 프로젝트: 실시간 STT를 위한 Online VAD 구현 및 성능 평가 진행 중. RNN-denoise 등 신규 모델 검토 및 기존 모델(CNN_MIL, PyanNet) 기반 Online Inference 구현 목표.
  • Moses(VAD+SD) 프로젝트: VITO 서비스용 음성 처리 시스템 고도화(v3). 화자 2명 제한 해소(N>2 예측), 사용자 발화 검출, 고해상도 오디오 지원, Speech enhancement(잡음/잔향 제거) 기능 추가 계획.
  • Sommers(STT) 프로젝트: Kaldi 기반 STT 엔진 v5 개발. 토크나이저 리팩토링, WFST 기반 ClassLM 도입, NNLM 디플로이 실험 진행 중.
  • ITN 프로젝트: WFST 기반 역텍스트 정규화 파이프라인 구축. 엔비디아 NeMo 툴킷 구조 참고하여 한국어 ITN 개발 목표. 분류-파싱-재정렬-문장화 단계별 처리.
  • E2E ASR 프로젝트: 기존 Sommers(Kaldi) 대체를 위한 End-to-End ASR 모델 개발. ESPNet과 SpeechBrain 프레임워크 벤치마킹 및 KsponSpeech 데이터셋 활용 학습 파이프라인 구성 중.