TTS 후순위 전환 및 ASR 집중 전략 수립 (2022-05-23)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 327. 2022-05-23.md

Summary

이 노트는 TTS(Text-to-Speech) 프로젝트의 우선순위가 낮아지고 ASR(Automatic Speech Recognition) 업무에 집중해야 한다는 팀 방침 변경을 기록한다. Coqui TTS 기반의 개인화 TTS 서비스 구상이 있었으나, 회사 차원에서 TTS는 PoC(Proof of Concept) 수준으로 한정되고 리소스 투입이 제한됨을 확인했다. 이에 따라 연구 방향을 전환하여 100만 시간 오디오 데이터 기반 ASR 지원, BenchmarkASR의 GitHub Action 연동, Pronaia 샌드박스 연계를 통한 CER(Character Error Rate) 자동 평가 시스템 구축에 주력하기로 결정했다.

Key Points

  • TTS 프로젝트 우선순위 하향 조정: 회사 방침상 TTS는 PoC 수준으로 한정, 리소스 투입 최소화
  • ASR 업무 집중: Arthur 1-on-1 미팅을 통해 ASR 팀의 과중한 업무와 CER 계산 필요성 확인
  • BenchmarkASR 인프라 구축: GitHub Action 연동 및 Pronaia 샌드박스 호출을 통한 자동화 평가 파이프라인 설계
  • TTS 기술 검토 중단: GlowTTS/HiFiGAN 세팅 및 Coqui TTS 구조 분석은 개인 연구 수준으로 격하