RAPA 과제: AI 기반 음성인식 후보정 및 데이터셋 구축

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1456. 2025-06-25.md

Summary

본 노트는 ‘RAPA’ 정부과제의 사업계획서 작성 현황을 기록한 것으로, AI 기반 음성인식(ASR) 결과의 자동 후보정(Post-correction) 기술 개발을 핵심으로 한다. 기존 ASR 기술이 예능 방송의 구어체, 소음, 다중 화자 환경에서 한계를 보이는 점을 문제의식으로 삼고, 이를 해결하기 위해 LLM 기반 후보정 파이프라인과 특화 데이터셋을 구축한다. 주요 수행 내용은 하드샘플(Hard Sample) 기반의 오류 유형 분류, 컨텍스트 기반 LLM 파인튜닝, 그리고 Triton/vLLM 기반의 추론 시스템 아키텍처 설계이다. 궁극적인 목표는 CER(문자 오류율) 감소 및 구두점/개체명 정확도 향상을 통해 방송사 편집 워크플로우의 효율성을 높이고, 한국어 LLM 생태계의 데이터 병목 현상을 해소하는 것이다.

Key Points

  • 문제 정의: 기존 ASR 기술은 예능 방송의 즉흥적 대화, 사투리, 소음, 다중 화자 환경에서 인식률이 낮으며, 공개 코퍼스는 방송 특유의 언어적 맥락(신조어, 말장난 등)을 반영하지 못해 데이터 병목이 발생함.
  • 해결 방안: LLM 기반 음성인식 후보정(Post-correction) 파이프라인 개발. 초벌 STT 결과와 정답 자막을 비교해 오류를 태깅하고, 발화 단위 컨텍스트(N-gram)를 고려한 LLM을 통해 문맥적 오류를 보정함.
  • 기술적 접근: 1) 오류 유형 자동 분류기(삽입/삭제/대체 등) 구축, 2) 컨텍스트 기반 후보정 생성 및 재순위화, 3) 적응적 학습 전략(파인튜닝 및 하이퍼파라미터 조정) 적용.
  • 시스템 아키텍처: Audio → Triton(STT) → 오류 태깅 → vLLM/sglang(후보정) → 타임코드 재삽입 순의 마이크로서비스 기반 파이프라인 설계. 데이터 스키마 표준화 및 버전 관리를 통해 확장성 확보.
  • 성과 목표: 내부 기준선 대비 CER 10% 감소, 구두점 및 개체명(NER) 정확도 5%p 향상. 방송사 편집 워크플로우에 플러그인 형태로 적용 가능한 실증 모델 개발.
  • 기대 효과: 영상 자막 제작 시간 단축 및 비용 절감, 한국어 특화 고정밀 자막 모델 확보를 통한 콘텐츠 수출 경쟁력 강화, 스타트업/학계 재사용 가능한 데이터셋 및 API 서비스화.