통계적 기계 번역 표현을 활용한 교차 언어 정보 검색

Source

  • Evernote/Inbox/Exploiting Representations from Statistical Machine Translation for Cross-Language Information Retrieval.md

Summary

본 논문은 현대 통계적 기계 번역(SMT) 시스템의 내부 표현을 교차 언어 정보 검색(CLIR)에 활용하는 방법을 탐구합니다. 쿼리 번역의 핵심 과제인 ‘맥락 활용을 통한 정확도 향상’과 ‘원문의 모호성 보존(다양한 번역 후보 유지)’ 사이의 균형을 맞추기 위해 두 가지 새로운 접근법을 제안합니다. 첫째, 문법 기반 접근법은 번역 문법에서 번역 확률을 추출하고, 둘째, 디코더 기반 접근법은 n-best 번역 가설을 활용합니다.

Key Points

  • 통계적 기계 번역(SMT)의 내부 표현을 교차 언어 정보 검색에 적용
  • 맥락 기반 정확도 향상 vs 원문 모호성 보존(다양성 유지)의 균형 필요
  • 제안 방법 1: 문법 기반 접근법 (번역 문법에서 확률 추출)
  • 제안 방법 2: 디코더 기반 접근법 (n-best 번역 가설 활용)
  • 저자: Ferhan Ture, Jimmy Lin
  • 출처: ACM Transactions on Information Systems (TOIS), 2014