RAPA 방송영상 AI 학습용 데이터 구축 과제 킥오프 및 Pacman Stack Builder 현황

Source

  • Field Notes/ReturnZero/Daily Notes/Day 1450. 2025-06-19.md

Summary

본 노트는 ‘Pacman’ 프로젝트의 Stack builder(OS/드라이버 분리) 기술 이슈와, 한국전파진흥원(RAPA) 주관 ‘방송영상 AI 학습용 데이터 구축’ 정부과제 킥오프 내용을 기록한다. RAPA 과제는 SBS 주관으로 드라마 하이라이트, 영상 증강, 음성인식 하드샘플, 배경음악 생성 등 4개 세부 데이터셋을 구축하며, 리턴제로는 음성인식 후보정(2.5억 원)을 담당한다. 제안서 제출(7/3)을 앞두고 사업계획서 작성 항목(평가지표, 데이터 구축/검증 계획)과 파트너사(트위그팜, 지로 등) 역할 분담, 저작권 및 메타데이터 이슈를 논의했다.

Key Points

  • Pacman Stack builder: OS 팩 필요성 재검토, 드라이버 패키징이 주요 이슈.
  • RAPA 과제 개요: 한국전파진흥원 주관, SBS 총괄, 총 예산 48억 원, 8월~12월 진행.
  • 리턴제로 역할: (3세부) 음성인식 하드샘플 후보정 데이터셋 구축, 예산 2.5억 원.
  • 제안서 일정: 6/27 세부별 1차 작성 마감, 7/3 최종 제출.
  • 사업계획서 핵심: 평가지표(정량/정성), 데이터 구축 계획(목적/방법/규모/형태/정제/가공), 데이터 검증.
  • 파트너사 현황: 트위그팜(비식별화/검수), 지로(원천 정제/2차 가공), 오지큐(세그먼테이션), KAIST/뉴튠(음악 생성).
  • 트위그팜 미팅: LLM용 텍스트 데이터의 저작권 이슈 및 메타데이터 정의 필요성 논의.