RAPA 과제: AI 기반 음성인식 후보정 및 데이터셋 구축

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1455. 2025-06-24.md

Summary

본 노트는 ‘RAPA’ 정부과제의 사업계획서 작성 내용을 기록한 것으로, AI 기반 음성인식(ASR) 결과의 오류를 수정하는 ‘후보정(Post-correction)’ 기술 개발을 핵심으로 한다. 기존 ASR이 예능 방송의 구어체, 소음, 다중 화자 환경에서 한계를 보이는 점을 문제의식으로 삼고, 이를 해결하기 위해 LLM 기반 후보정 파이프라인과 전용 하드샘플 데이터셋을 구축하는 방안을 제시한다. 주요 수행 내용은 오류 유형 자동 분류, 컨텍스트 기반 후보정 생성, 그리고 Triton/vLLM 기반의 시스템 아키텍처 설계이며, 최종 목표는 CER(문자 오류율) 감소 및 구두점/개체명 인식 정확도 향상을 통해 방송사 편집 워크플로우에 적용 가능한 실증 모델을 만드는 것이다.

Key Points

  • 문제 정의: 기존 ASR 기술은 예능 방송의 즉흥적 대화, 사투리, 소음, 다중 화자 환경에서 높은 오류율을 보이며, 공개 코퍼스는 방송 특화 데이터가 부족함.
  • 해결 방안: LLM을 활용한 음성인식 후보정(Post-correction) 파이프라인 개발 및 방송 특화 하드샘플 데이터셋 구축.
  • 기술적 접근: 오류 유형(삽입/삭제/대체 등) 자동 태깅, 직전 N 개 발화를 포함한 컨텍스트 창(Context Window) 활용, 적응적 학습 전략 적용.
  • 시스템 아키텍처: Audio → Triton(STT) → 오류 태깅 → vLLM/sglang(후보정) → 타임코드 재삽입의 단계별 컨테이너화 파이프라인 구성.
  • 성과 목표: 내부 기준선 대비 CER 10% 감소, 구두점 및 개체명(NER) 정확도 5%p 향상, 방송사 편집 도구와의 연동 실증.