The Intervalgram: 대규모 커버송 인식을 위한 오디오 특징

Source

  • Evernote/IFTTT Feedly/The Intervalgram An Audio Feature for Large-Scale Cover-Song Recognition.md

Summary

구글 연구진이 제안한 ‘Intervalgram’은 짧은 오디오 조각의 음악적 내용을 표현하는 새로운 크로마 기반 특징입니다. 이는 안정화된 청각 이미지(SAI)에서 파생된 크로마 표현을 바탕으로, 로컬 참조점에 대한 ‘소프트’ 피치 전이를 통해 로컬 피치 불변성을 확보합니다. 다중 오버래핑 윈도우로 생성된 Intervalgram 집합은 동적 프로그래밍을 통해 데이터베이스 내 동일한 멜로디 및 화성 진행을 탐지하는 데 사용됩니다. ‘covers80’ 데이터셋 평가 결과, Top-1 정밀도 53.8%를 기록하며 높은 강건성을 보였습니다. 또한 로컬리티-센시티브 해싱(LSH)을 지원하여 대규모 참조 데이터베이스의 빠른 선별(pruning)이 가능하도록 설계되었습니다.

Key Points

  • Intervalgram: 음악 구간의 로컬 음정 패턴을 요약하는 크로마 기반 오디오 특징
  • 로컬 피치 불변성: 안정화된 청각 이미지(SAI) 기반 크로마 및 소프트 피치 전이를 통해 구현
  • 대규모 검색 최적화: 로컬리티-센시티브 해싱(LSH) 지원으로 데이터베이스 빠른 선별 가능
  • 성능: covers80 데이터셋에서 Top-1 정밀도 53.8%, 높은 정밀도 유지
  • 적용: 동적 프로그래밍 기반의 멜로디 및 화성 진행 탐지 시스템