CTC Align 실패 현상 및 대안 탐색 (Day 672)

Source

  • Field Notes/ReturnZero/Daily Notes/Day 672. 2023-05-03.md

Summary

16k 모델에 8k 오디오 입력 시 CTC Align이 초기에는 정상 작동하나 긴 문장부터 어긋나며 전체 얼라인이 망가지는 현상 발생. 리샘플링 등 음질 조정 실패 후, CTC segmentation 내부 로직(text_processing, lpz) 분석 및 VAD+ASR 기반 대안, espnet CTC segmentation 적용 가능성 검토. 아울러 AWS T4 환경에서 Triton Server 배포 및 네트워크 설정(David와 협의) 관련 작업 진행 중.

Key Points

  • CTC Align 실패: 16k 모델에 8k 오디오 입력 시 초기 utterance는 정상이나, 긴 문장부터 중간 잘림/과도한 진행으로 얼라인 붕괴.
  • 실패 원인 분석 시도: rtboost 리샘플링 실패, CTC segmentation 내부 함수(text_processing, lpz) 및 get_partition/get_segments 로직 검토.
  • 대안 모색: 1) 자체 VAD+ASR로 word+timestamp 추출 후 CER 최소화 기반 utterance 병합, 2) espnet CTC segmentation 적용.
  • 인프라 작업: AWS T4 환경에서 Triton Server 이미지 빌드/배포 시도 중, ECR 접근 및 Bastion 용량 제한으로 인한 난항.
  • 네트워크 협의: 서브넷 직접 연결 또는 터널링을 통한 인스턴스 클론 및 배포 환경 구성 논의.