Transfer Learning In MIR: Sharing Learned Latent Representations For Music Audio Classification And Similarity
Source
Evernote/IFTTT Feedly/Transfer Learning In MIR Sharing Learned Latent Representations For Music Audio Classification And Similarity.md
Summary
이 논문은 음악 정보 검색(MIR) 분야, 특히 음악 오디오 분류 및 유사도 분석에 전이 학습(Transfer Learning)을 적용하는 방법을 다룹니다. 기존 지도 학습이 단일 데이터셋의 라벨에만 의존하는 반면, 전이 학습은 관련 작업 간의 공유 잠재 표현(shared latent representation)을 학습하여 타겟 작업의 성능을 향상시킵니다. MIR 데이터셋은 라벨 간 의미적 중복이 많고 샘플 수(노래 수)가 적은 경향이 있어, 장르나 유사도 같은 고수준 음악 개념을 더 강건하게 이해하기 위해 지식 공유가 필요합니다. 연구 결과, 공유 표현은 분류 정확도를 높일 뿐만 아니라 음악 유사도 분석 성능도 개선하는 것으로 나타났습니다.
Key Points
- 음악 오디오 분류 및 유사도 분석에 전이 학습 적용 가능성 제시
- 관련 작업 간 공유 잠재 표현 학습을 통한 지식 이전 방법론
- MIR 데이터셋의 라벨 중복성 및 소규모 샘플 문제 해결 방안
- 공유 표현 학습이 분류 정확도 및 음악 유사도 성능 향상 효과 입증
Related
-
Efficient Inference and Structured Learning for Semantic Role Labeling
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Improved Domain Adaptation for Statistical Machine Translation
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
Enlisting the Ghost: Modeling Empty Categories for Machine Translation
-
Efficient Estimation of Word Representations in Vector Space
-
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
-
Efficient Closed-Form Solution to Generalized Boundary Detection
-
Smooth Nonnegative Matrix Factorization for Unsupervised Audiovisual Document Structuring
-
A Hamming Embedding Kernel with Informative Bag-of-Visual Words for Video Semantic Indexing
-
An Unsupervised Feature Selection Framework for Social Media Data
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Target Language Adaptation of Discriminative Transfer Parsers
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling
-
Protecting Sensitive Labels in Social Network Data Anonymization
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Fast, Accurate Detection of 100,000 Object Classes on a Single Machine (Technical Supplement)
-
Neighborhood Preserving Codes for Assigning Point Labels: Applications to Stochastic Search