Enlisting the Ghost: Modeling Empty Categories for Machine Translation
Source
Evernote/IFTTT Feedly/Enlisting the Ghost Modeling Empty Categories for Machine Translation.md
Summary
이 논문은 중국어-영어 기계 번역(MT)에서 빈 카테고리(Empty Categories, EC)를 모델링하여 번역 품질을 향상시키는 방법을 제시합니다. Penn Treebank의 Government-Binding 이론에 기반한 EC는 중국어와 같은 언어에서 흔하지만 기존 MT 연구에서는 간과되어 왔습니다. 저자들은 구조화된 MaxEnt 모델을 사용하여 문법 및 어휘 특징을 통해 EC를 복원한 후, 이를 MT 시스템에 통합했습니다. 결과적으로 단어 정렬(word alignment) 품질이 개선되었고, 대규모 문법 기반 MT 시스템의 성능이 유의미하게 향상되었습니다.
Key Points
- 빈 카테고리(EC)는 중국어 등 특정 언어 현상(예: pro-drop)을 설명하기 위해 Penn Treebank에 도입된 인공 요소임.
- 기존 MT 연구에서는 EC의 추상성으로 인해 대부분 무시되어 왔음.
- 구조화된 MaxEnt 모델과 풍부한 문법/어휘 특징을 사용하여 EC를 복원(predict)함.
- 복원된 EC를 중국어-영어 MT 작업에 통합(특히 EC 전용 희소 특징 추출 포함)함.
- EC 모델링은 단어 정렬 품질 향상과 대규모 문법 기반 MT 시스템의 성능 개선을 가져옴.
Related
-
Improved Domain Adaptation for Statistical Machine Translation
-
Efficient Estimation of Word Representations in Vector Space
-
Scalable Decipherment for Machine Translation via Hash Sampling
-
Target Language Adaptation of Discriminative Transfer Parsers
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Social Event Classification via Boosted Multimodal Supervised Latent Dirichlet Allocation
-
Active Learning through Adaptive Heterogeneous Ensembling (AHE)
-
An Unsupervised Feature Selection Framework for Social Media Data
-
Accurate and Compact Large Vocabulary Speech Recognition on Mobile Devices
-
Continuous Birdsong Recognition Using Gaussian Mixture Modeling of Image Shape Features
-
Unsupervised Spatial Event Detection in Targeted Domains with Applications to Civil Unrest Modeling
-
Speech and Natural Language: Where Are We Now And Where Are We Headed
-
Coordinated Multi-Device Presentations: Ambient-Audio Identification
-
Efficient Closed-Form Solution to Generalized Boundary Detection