RAPA 과제: 음성인식 오류교정 데이터셋 및 사업계획서

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1454. 2025-06-23.md

Summary

본 노트는 ‘RAPA’ 정부과제 수행을 위한 안상홍 팀장의 업무 기록이다. 주요 내용은 트위그팜 측에 발송한 이메일 초안과 사업계획서 작성 개요로 구성된다. 이메일에서는 LLM 기반 음성인식 오류 교정용 데이터셋의 메타데이터 구조(YAML 스펙) 검토와 사업계획서 템플릿 요청을 담고 있다. 사업계획서 초안 부분에서는 ASR 기술 동향, 한국어 방송 데이터의 특수성(구어체, 소음 등)으로 인한 데이터 병목 문제, 그리고 LLM 기반 후보정의 필요성을 기술 배경으로 서술하고 있다. 다만, 세부 수행 내용과 알고리즘 부분은 ‘땡땡’이라는 플레이스홀더로 채워져 있어 미완성 상태이며, 일부 섹션은 드라마 요약 AI 모델 개발 내용으로 혼재되어 있어 정제도가 낮다.

Key Points

  • 과제명: RAPA (음성인식 오류교정 데이터셋 구축)
  • 주요 파트너: 트위그팜 (백선호 대표, 최규동 본부장)
  • 데이터셋 스펙: 방송 콘텐츠 ID, 메타데이터(태그, 방영일), 요약문, 발화 데이터(다중 ASR 가설, 음소 정보, 정답, 시간 정보)를 YAML 형식으로 구조화
  • 기술적 문제의식: 기존 공개 코퍼스는 방송 특유의 구어체/방언/소음을 반영하지 못하며, 방송사 원본 데이터는 정제 및 권리 문제로 활용이 어려움
  • 해결 방안: LLM 기반 후보정을 통해 WER/CER 감소 및 문맥적 오류 교정, 하드샘플 데이터셋 구축을 통한 모델 성능 향상
  • 사업계획서 현황: 기술 동향 및 추진 배경은 초안 작성 완료, 세부 수행 내용/알고리즘/성과 목표는 미작성(플레이스홀더)
  • 혼재된 내용: 기관별 수행 상세내역에 ‘드라마 요약 AI 모델’ 관련 내용이 포함되어 있어 주제 일관성이 떨어짐