신한 완판 프로젝트: 화자 분리 및 실시간 전사 킥오프

Source

  • Field Notes/ReturnZero/Daily Notes/Day 987. 2024-03-14.md

Summary

신한은행 완판 프로젝트의 내부 킥오프 회의록으로, 대면상담 녹취(Tx/Rx)의 화자 분리 및 실시간 전사 요구사항을 논의했다. 스피커 기반 Tx/Rx 구분 성능이 낮아 소프트웨어적 화자 분리(Pronaia-engine) 도입을 결정했으며, 4~6월 개발, 9월 배포를 목표로 한다. 주요 기술 과제로 워드 타임스탬프 정확도(WFST/Kaldi/Conformer 비교), 라이선스 채널 수 조정, 그리고 rt-dadumi 온라인 대응이 거론되었다.

Key Points

  • 프로젝트 목표: 대면상담 녹취의 Tx/Rx 화자 분리 및 준실시간/실시간 전사 제공
  • 기술 결정: 스피커 기반 구분 성능 부족으로 소프트웨어적 화자 분리(Pronaia-engine filter) 채택
  • 일정: 46월 개발 및 테스트, 78월 시험, 9월 초 배포 및 1개월 안정화
  • 기술 과제: 워드 타임스탬프 정확도 확보(WFST, Kaldi aligner fallback, E2e conformer 비교)
  • 운영 사항: 라이선스 150채널 기준, 파이프라인 말단에서 화자 분리 처리
  • 부수적 논의: Youtube downloader 전사 완료 판정 로직(audio_info.json 존재 여부)