The Intervalgram: 대규모 커버송 인식을 위한 오디오 특징
Source
Evernote/IFTTT Feedly/The Intervalgram An Audio Feature for Large-Scale Cover-Song Recognition.md
Summary
구글 연구진이 제안한 ‘Intervalgram’은 짧은 오디오 조각의 음악적 내용을 표현하는 새로운 크로마 기반 특징입니다. 이는 안정화된 청각 이미지(SAI)에서 파생된 크로마 표현을 바탕으로, 로컬 참조점에 대한 ‘소프트’ 피치 전이를 통해 로컬 피치 불변성을 확보합니다. 다중 오버래핑 윈도우로 생성된 Intervalgram 집합은 동적 프로그래밍을 통해 데이터베이스 내 동일한 멜로디 및 화성 진행을 탐지하는 데 사용됩니다. ‘covers80’ 데이터셋 평가 결과, Top-1 정밀도 53.8%를 기록하며 높은 강건성을 보였습니다. 또한 로컬리티-센시티브 해싱(LSH)을 지원하여 대규모 참조 데이터베이스의 빠른 선별(pruning)이 가능하도록 설계되었습니다.
Key Points
- Intervalgram: 음악 구간의 로컬 음정 패턴을 요약하는 크로마 기반 오디오 특징
- 로컬 피치 불변성: 안정화된 청각 이미지(SAI) 기반 크로마 및 소프트 피치 전이를 통해 구현
- 대규모 검색 최적화: 로컬리티-센시티브 해싱(LSH) 지원으로 데이터베이스 빠른 선별 가능
- 성능: covers80 데이터셋에서 Top-1 정밀도 53.8%, 높은 정밀도 유지
- 적용: 동적 프로그래밍 기반의 멜로디 및 화성 진행 탐지 시스템
Related
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
-
Point Representation for Local Optimization: Towards Multi-Dimensional Gray Codes
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
Efficient Estimation of Word Representations in Vector Space
-
Speech and Natural Language: Where Are We Now And Where Are We Headed
-
Regularized Latent Semantic Indexing (RLSI): 대규모 토픽 모델링을 위한 새로운 접근법
-
실내 이동 객체를 위한 거리 기반 조인 (Distance-Aware Join for Indoor Moving Objects)
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Language Model Verbalization for Automatic Speech Recognition
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine (Technical Supplement)
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees