Source-Side Classifier Preordering for Machine Translation
Source
Evernote/IFTTT Feedly/Source-Side Classifier Preordering for Machine Translation.md
Summary
구글 연구진이 기계 번역을 위한 새로운 사전 재배열(preordering) 접근법을 제안함. 기존 모델과 달리 구문 분석 트리의 구조를 활용해 장거리 재배열을 수행하면서, 어휘적 특징을 포함한 풍부한 특징 집합을 가진 판별 분류기(discriminative classifier)를 사용하여 목표 언어의 단어 순서를 직접 예측함. 22개 언어 쌍에 대한 실험 결과, WMT 2010 작업에서 최대 1.4 BLEU 점수 향상을 보였으며, 서로 다른 언어 계열 간 번역에서는 2 BLEU 이상의 개선이 자주 관찰됨. 이러한 향상은 인간 평가에서도 통계적으로 유의미한 것으로 확인됨.
Key Points
- 기존 사전 재배열 모델의 한계를 극복하기 위해 판별 분류기 기반의 새로운 접근법 제시
- 구문 분석 트리의 구조를 활용한 장거리 재배열과 풍부한 어휘적 특징을 결합
- 22개 언어 쌍 실험에서 BLEU 점수 향상 (최대 1.4, 다른 언어 계열 간에는 2 이상)
- 인간 평가에서도 통계적으로 유의미한 품질 개선 확인
Related
-
Improved Domain Adaptation for Statistical Machine Translation
-
Scalable Decipherment for Machine Translation via Hash Sampling
-
Patent Query Formulation by Synthesizing Multiple Sources of Relevance Evidence
-
Enlisting the Ghost: Modeling Empty Categories for Machine Translation
-
Target Language Adaptation of Discriminative Transfer Parsers
-
Supporting Flexible, Efficient, and User-Interpretable Retrieval of Similar Time Series
-
A term-based inverted index partitioning model for efficient distributed query processing
-
Efficient Estimation of Word Representations in Vector Space
-
Beyond Text QA: Multimedia Answer Generation by Harvesting Web Information
-
Semantic contextual advertising based on the open directory project