Enlisting the Ghost: Modeling Empty Categories for Machine Translation

Source

  • Evernote/IFTTT Feedly/Enlisting the Ghost Modeling Empty Categories for Machine Translation.md

Summary

이 논문은 중국어-영어 기계 번역(MT)에서 빈 카테고리(Empty Categories, EC)를 모델링하여 번역 품질을 향상시키는 방법을 제시합니다. Penn Treebank의 Government-Binding 이론에 기반한 EC는 중국어와 같은 언어에서 흔하지만 기존 MT 연구에서는 간과되어 왔습니다. 저자들은 구조화된 MaxEnt 모델을 사용하여 문법 및 어휘 특징을 통해 EC를 복원한 후, 이를 MT 시스템에 통합했습니다. 결과적으로 단어 정렬(word alignment) 품질이 개선되었고, 대규모 문법 기반 MT 시스템의 성능이 유의미하게 향상되었습니다.

Key Points

  • 빈 카테고리(EC)는 중국어 등 특정 언어 현상(예: pro-drop)을 설명하기 위해 Penn Treebank에 도입된 인공 요소임.
  • 기존 MT 연구에서는 EC의 추상성으로 인해 대부분 무시되어 왔음.
  • 구조화된 MaxEnt 모델과 풍부한 문법/어휘 특징을 사용하여 EC를 복원(predict)함.
  • 복원된 EC를 중국어-영어 MT 작업에 통합(특히 EC 전용 희소 특징 추출 포함)함.
  • EC 모델링은 단어 정렬 품질 향상과 대규모 문법 기반 MT 시스템의 성능 개선을 가져옴.