URL 기반 웹 페이지 언어 분류 기술 종합 연구
Source
Evernote/Papers/A Comprehensive Study of Techniques for URL-Based Web Page Language Classification.md
Summary
이 논문은 웹 페이지의 실제 콘텐츠에 접근하지 않고 URL 정보만으로 페이지의 언어를 분류하는 방법을 연구합니다. 콘텐츠 다운로드에 따른 대역폭 및 시간 낭비를 줄일 수 있어 유용합니다. 연구진은 영어, 독일어, 프랑스어, 스페인어, 이탈리아어에 대해 기계 학습 알고리즘과 다양한 특징(단어, n-gram, 신규 커스텀 특징)을 적용하여 분류기를 구축하고 평가했습니다.
Key Points
- 웹 페이지 콘텐츠 없이 URL만으로 언어를 식별하는 방법론 제시
- 콘텐츠 다운로드 생략을 통한 대역폭 및 시간 효율성 강조
- 대상 언어: 영어, 독일어, 프랑스어, 스페인어, 이탈리아어
- 사용된 특징: 단어, 다양한 크기의 n-gram, 연구진이 제안한 신규 커스텀 특징
- 사용된 알고리즘: 텍스트 분류용 일반 기계 학습 알고리즘 및 최신 언어 식별 알고리즘
Related
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
Semantic contextual advertising based on the open directory project
-
Semantic content-based recommendation of software services using context
-
The Semantic Web and End Users: What’s Wrong and How to Fix It
-
의미적 궤적 모델링 및 분석 (Semantic Trajectories Modeling and Analysis)
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
A Pure Visual Approach for Automatically Extracting and Aligning Structured Web Data
-
Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions
-
Knowledge Management for Coalition Information Sharing at the Network Edge
-
Structured Streaming Skeleton (SSS): 온라인 인간 제스처 인식용 새로운 특징 추출 방법
-
Patent Query Formulation by Synthesizing Multiple Sources of Relevance Evidence