RAPA 과제: AI 기반 음성인식 후보정 및 데이터셋 구축

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1458. 2025-06-27.md

Summary

본 노트는 ‘RAPA’ 정부과제의 사업계획서 작성 현황을 기록한 것으로, AI 기반 음성인식(ASR) 결과의 자동 후보정(Post-correction) 기술 개발을 핵심으로 한다. 기존 ASR이 처리하기 어려운 예능 방송의 구어체(사투리, 유행어, 중첩 발화 등)와 소음 환경에서의 오류를 해결하기 위해, LLM을 활용한 후보정 파이프라인과 전용 하드샘플 데이터셋 구축을 추진 중이다. 주요 수행 내용은 다중 ASR 엔진 결과와 정답 자막의 정밀 정렬을 통한 오류 태깅, 컨텍스트 기반 LLM 파인튜닝, 그리고 Triton/vLLM 기반의 추론 시스템 아키텍처 설계이다. 최종 목표는 CER(문자 오류율) 감소 및 구두점/개체명 인식 정확도 향상을 통해 방송사 편집 워크플로우에 적용 가능한 실증 모델을 개발하는 것이다.

Key Points

  • 과제명: RAPA (정부과제), 총괄책임자: 안상홍
  • 문제 의식: 기존 ASR의 구어체/소음/다중화자 처리 한계 및 한국어 방송 특화 데이터 부족
  • 핵심 기술: LLM 기반 ASR 후보정 파이프라인, 오류 유형 자동 분류기, 컨텍스트 기반 재순위화
  • 데이터 전략: 예능 하드샘플 기반 데이터셋 구축, 다중 ASR 엔진 결과 정렬 및 오류 태깅 스키마화
  • 시스템 아키텍처: Triton(STT 서빙) + vLLM/sglang(후보정 추론) 기반 마이크로서비스 구조
  • 성과 목표: 내부 기준선 대비 CER 10% 감소, 구두점/개체명 정확도 5%p 향상
  • 기대 효과: 영상 자막 제작 시간 단축, 한국어 LLM 생태계 경쟁력 강화, 콘텐츠 수출 역량 제고