RAPA 과제: AI 기반 음성인식 후보정 및 데이터셋 구축

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1457. 2025-06-26.md

Summary

본 노트는 ‘RAPA’ 정부과제의 사업계획서 작성 현황을 기록한 것으로, 핵심 주제는 예능 방송 특화 AI 음성인식(ASR) 후보정 기술 및 데이터셋 구축이다. 기존 ASR이 처리하기 어려운 한국어 구어체(사투리, 유행어, 다중 화자, 소음 등)의 오류를 LLM 기반 후보정 파이프라인으로 해결하고자 한다. 주요 수행 내용은 하드샘플 데이터셋 제작, 컨텍스트 기반 LLM 파인튜닝, 그리고 Triton/vLLM 기반의 실시간 추론 시스템 아키텍처 설계이다. 목표는 CER(문자 오류율) 감소 및 구두점/개체명 정확도 향상을 통해 방송사 편집 워크플로우의 자동화 효율을 높이는 것이다.

Key Points

  • 문제 의식: 기존 공개 코퍼스는 방송 특유의 구어체(사투리, 신조어 등)를 반영하지 못하며, 방송사 내부 데이터는 정제되지 않아 학습에 바로 활용하기 어려움.
  • 해결 방안: LLM 기반 음성인식 후보정 파이프라인 개발. 발화 단위 슬라이딩 컨텍스트(N 개 이전 발화 참조)를 도입하여 맥락 의존 오류를 보정.
  • 데이터셋 구축: 초벌 STT 결과와 정답 자막을 정밀 정렬하여 오류 유형(삽입/삭제/대체 등)을 태깅한 ‘예능 하드샘플’ 데이터셋 제작.
  • 기술 스택: ASR 엔진(Whisper, Clova 등) 병렬 추론 → 오류 태깅 → vLLM/sglang 기반 LLM 후보정 → 타임코드 재삽입의 모듈화 아키텍처.
  • 성과 목표: 내부 기준선 대비 CER 10% 감소, 구두점 및 개체명(NER) 정확도 5%p 향상.
  • 기대 효과: 콘텐츠 제작 시간 단축, 한국어 LLM 생태계 경쟁력 강화, 다국어 번역 연동을 통한 글로벌 수출 역량 제고.