Classification of Homogeneous Data With Large Alphabets
Source
Evernote/Papers/Classification of Homogeneous Data With Large Alphabets.md
Summary
이 논문은 알파벳 크기가 블록 길이에 따라 증가하는 동질적 데이터의 분류 문제를 다룹니다. 자연어와 같이 데이터 양에 비해 분포 학습이 어려운 소스를 모델링하기 위해, 알파벳 크기가 블록 길이에 따라 변하는 상황을 가정합니다. 연구 결과, 확률들이 모두 동일한 차수를 가지는 경우, 일관된 분류가 가능하려면 알파벳 크기가 블록 길이에 대해 2차 미만(subquadratically)으로 증가해야 함을 보였습니다. 또한, 일반적으로 사용되는 통계 검정 방법들은 알파벳 크기가 선형 미만(sublinearly)으로 증가할 때만 일관성을 가지므로 비최적임을 지적했습니다.
Key Points
- 알파벳 크기가 블록 길이에 따라 증가하는 동질적 데이터의 분류 문제 연구
- 자연어 등 데이터 양에 비해 분포 학습이 어려운 소스 모델링
- 일관된 분류를 위한 필요충분조건: 알파벳 크기가 블록 길이에 대해 2차 미만 증가
- 일반 통계 검정 방법의 한계: 알파벳 크기가 선형 미만 증가 시에만 일관성 있음
Related
-
Information-Theoretic Outlier Detection for Large-Scale Categorical Data
-
Moment-Based Spectral Analysis of Large-Scale Networks Using Local Structural Information
-
A Pure Visual Approach for Automatically Extracting and Aligning Structured Web Data
-
The Number of Huffman Codes, Compact Trees, and Sums of Unit Fractions
-
Protecting Sensitive Labels in Social Network Data Anonymization
-
An Unsupervised Feature Selection Framework for Social Media Data
-
웹 데이터베이스 검색 결과 자동 주석 처리 (Automatic Annotation of Web Database Search Results)
-
λ-Diverse Nearest Neighbors Browsing for Multidimensional Data
-
Anomaly Extraction in Backbone Networks Using Association Rules
-
동적 스타 네트워크에서 다중 유형 객체의 공진화 (Co-Evolution of Multi-Typed Objects in Dynamic Star Networks)
-
Similarity-based Clustering by Left-Stochastic Matrix Factorization
-
Efficient Multiview Maintenance under Insertion in Huge Social Networks
-
Generalized Optimal Response Time Retrieval of Replicated Data from Storage Arrays
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Fast Near-Duplicate Image Detection Using Uniform Randomized Trees
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Neighborhood Preserving Codes for Assigning Point Labels: Applications to Stochastic Search
-
이동성 모델 분류 체계 및 조사 (A Taxonomy and Survey of Microscopic Mobility Models)
-
Weakly Supervised Learning of Object Segmentations from Web-Scale Video
-
People reidentification in surveillance and forensics: A survey
-
A Model for Context in the Design of Open Production Communities
-
When Amazon Meets Google: Product Visualization by Exploring Multiple Web Sources
-
웹 페이지의 시각적 복잡성 측정 (Measuring the Visual Complexities of Web Pages)