Source-Side Classifier Preordering for Machine Translation

Source

  • Evernote/IFTTT Feedly/Source-Side Classifier Preordering for Machine Translation.md

Summary

구글 연구진이 기계 번역을 위한 새로운 사전 재배열(preordering) 접근법을 제안함. 기존 모델과 달리 구문 분석 트리의 구조를 활용해 장거리 재배열을 수행하면서, 어휘적 특징을 포함한 풍부한 특징 집합을 가진 판별 분류기(discriminative classifier)를 사용하여 목표 언어의 단어 순서를 직접 예측함. 22개 언어 쌍에 대한 실험 결과, WMT 2010 작업에서 최대 1.4 BLEU 점수 향상을 보였으며, 서로 다른 언어 계열 간 번역에서는 2 BLEU 이상의 개선이 자주 관찰됨. 이러한 향상은 인간 평가에서도 통계적으로 유의미한 것으로 확인됨.

Key Points

  • 기존 사전 재배열 모델의 한계를 극복하기 위해 판별 분류기 기반의 새로운 접근법 제시
  • 구문 분석 트리의 구조를 활용한 장거리 재배열과 풍부한 어휘적 특징을 결합
  • 22개 언어 쌍 실험에서 BLEU 점수 향상 (최대 1.4, 다른 언어 계열 간에는 2 이상)
  • 인간 평가에서도 통계적으로 유의미한 품질 개선 확인