통계적 기계 번역 표현을 활용한 교차 언어 정보 검색
Source
Evernote/Inbox/Exploiting Representations from Statistical Machine Translation for Cross-Language Information Retrieval.md
Summary
본 논문은 현대 통계적 기계 번역(SMT) 시스템의 내부 표현을 교차 언어 정보 검색(CLIR)에 활용하는 방법을 탐구합니다. 쿼리 번역의 핵심 과제인 ‘맥락 활용을 통한 정확도 향상’과 ‘원문의 모호성 보존(다양한 번역 후보 유지)’ 사이의 균형을 맞추기 위해 두 가지 새로운 접근법을 제안합니다. 첫째, 문법 기반 접근법은 번역 문법에서 번역 확률을 추출하고, 둘째, 디코더 기반 접근법은 n-best 번역 가설을 활용합니다.
Key Points
- 통계적 기계 번역(SMT)의 내부 표현을 교차 언어 정보 검색에 적용
- 맥락 기반 정확도 향상 vs 원문 모호성 보존(다양성 유지)의 균형 필요
- 제안 방법 1: 문법 기반 접근법 (번역 문법에서 확률 추출)
- 제안 방법 2: 디코더 기반 접근법 (n-best 번역 가설 활용)
- 저자: Ferhan Ture, Jimmy Lin
- 출처: ACM Transactions on Information Systems (TOIS), 2014
Related
-
Improved Domain Adaptation for Statistical Machine Translation
-
Patent Query Formulation by Synthesizing Multiple Sources of Relevance Evidence
-
Enlisting the Ghost: Modeling Empty Categories for Machine Translation
-
Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions
-
Knowledge Management for Coalition Information Sharing at the Network Edge
-
Semantic contextual advertising based on the open directory project
-
A term-based inverted index partitioning model for efficient distributed query processing
-
웹 페이지의 시각적 복잡성 측정 (Measuring the Visual Complexities of Web Pages)
-
언어 독립적 시간 표현 판별적 파싱 (Language-Independent Discriminative Parsing of Temporal Expressions)
-
사회적·공간적 근접성을 활용한 공동 검색 (Joint Search by Social and Spatial Proximity)
-
Knowledge-Based Approaches to Information Management in Coalition Environments
-
의미적 궤적 모델링 및 분석 (Semantic Trajectories Modeling and Analysis)
-
Feature Ensemble Plus Sample Selection: Domain Adaptation for Sentiment Classification
-
Beyond Text QA: Multimedia Answer Generation by Harvesting Web Information
-
Semantic content-based recommendation of software services using context
-
When Amazon Meets Google: Product Visualization by Exploring Multiple Web Sources