Classification of Homogeneous Data With Large Alphabets

Source

  • Evernote/Papers/Classification of Homogeneous Data With Large Alphabets.md

Summary

이 논문은 알파벳 크기가 블록 길이에 따라 증가하는 동질적 데이터의 분류 문제를 다룹니다. 자연어와 같이 데이터 양에 비해 분포 학습이 어려운 소스를 모델링하기 위해, 알파벳 크기가 블록 길이에 따라 변하는 상황을 가정합니다. 연구 결과, 확률들이 모두 동일한 차수를 가지는 경우, 일관된 분류가 가능하려면 알파벳 크기가 블록 길이에 대해 2차 미만(subquadratically)으로 증가해야 함을 보였습니다. 또한, 일반적으로 사용되는 통계 검정 방법들은 알파벳 크기가 선형 미만(sublinearly)으로 증가할 때만 일관성을 가지므로 비최적임을 지적했습니다.

Key Points

  • 알파벳 크기가 블록 길이에 따라 증가하는 동질적 데이터의 분류 문제 연구
  • 자연어 등 데이터 양에 비해 분포 학습이 어려운 소스 모델링
  • 일관된 분류를 위한 필요충분조건: 알파벳 크기가 블록 길이에 대해 2차 미만 증가
  • 일반 통계 검정 방법의 한계: 알파벳 크기가 선형 미만 증가 시에만 일관성 있음