Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Structural Transfer of Morpho-syntactically Divergent Language Pairs for SMT

Title
Structural Transfer of Morpho-syntactically Divergent Language Pairs for SMT
Authors
LI, JINJI
Date Issued
2011
Publisher
포항공과대학교
Abstract
In this Thesis, we present a framework that first resolves structural differences as syntax-aided preprocessing then resolves lexical differences using a phrase-based SMT for morpho-syntactically divergent language pairs such as Chinese-Korean and English-Japanese. This framework strengthens the structure transfer of phrase-based SMT whose capacity for lexical transfer is widely proved. We contrastively analyze the morpho-syntactic differences of source and target languages from the viewpoint of word order and morphological typology. What kind of linguistically-motivated features are utilized and how to effectively incorporate them into the phrase-based SMT is our main concern. First, we consider the totally different word orders between Chinese and Korean. A Chinese syntactic reordering approach with an emphasis on predicate-predicate patterns is proposed for the phrase- and hierarchical phrase-based SMT. We examine the predicate-predicate patterns relating to long-distance reordering, and investigate which specific constructions contribute to better translation through syntactic reordering. Useful linguistic knowledge is explored to detect the constructions which need to be reordered. Then, we consider the translation direction of both language pairs from a morphologically-poor language (isolating language) to a morphologically-rich one (agglutinative language) which is more difficult than translating in the opposite direction. Our proposed method handles the structural differences to generate complex morphology in the target languages. Among various kinds of structural differences, we focus on the thematic divergences of syntactic roles such as subject and object between source and target languages. Subject and object relations in Chinese and English are implicitly expressed by the word order, while in Korean and Japanese they are explicitly expressed by case markers. Furthermore, these syntactic roles are frequently transferred into other syntactic roles when translating. Our proposed approach fills the morpho-syntactic gaps with the transferred syntactic roles to help the generation of adequate case markers in the target languages. The process of resolving thematic divergences is realized as a structured prediction model. Finally, we combine the two aforementioned approaches in a cascaded model to perform a more generalized structural transfer because they are complementary to each other. The input sentences are syntactically reordered, then the thematic divergences of subject and object relations of the reordered sentences are resolved, and vice versa.
본 논문에서는 중한 또는 영일과 같이 형태구문적으로 상이한 언어쌍에 대한 통계기계번역에서, 언어학적 정보를 이용한 전처리를 통하여 구조변환을 하고 다음 구기반 통계기계번역 시스템을 이용하여 어휘변환을 진행하는 방법을 제안한다. 이 방법은 널리 알려진 구기반 통계기계번역(phrase-based SMT)의 어휘변환 능력을 훼손시키지 않으면서 약점인 구조변환 능력을 강화할 수 있는 방법이다. 본 논문은 중한/영일 언어쌍의 형태구문적 상이성을 어순 및 형태소 유형론적 측면에서 세밀히 대조분석(contrastive analysis)하고, 이런 상이성을 해소하기 위하여 관련 언어학적 정보를 개발하고, 또 구기반 통계기계번역에서 어떻게 효과적으로 활용하는 지를 중점적으로 보여준다. 먼저 어순 유형론적으로 볼때 중국어와 한국어는 서로 매우 다른 어순을 가지고 있는데, 특히 중국어 문장에서 용언-용언 패턴을 중심으로 효과적인 구문적 재배치(syntactic reordering) 방법을 제안하고, 구기반과 계층적 구기반 통계기계번역 시스템에서 그 유효성을 검증한다. 용언-용언 패턴은 한국어로 번역될 때 먼거리 재배치(long-distance reordering) 문제를 야기시키는데, 우선 구체적으로 어떤 구조가 재배치를 통하여 번역향상에 도움이 되는지를 판별하고, 유용한 언어학적 지식을 개발하여 이 패턴의 재배치 문제를 해결한다. 다음으로 중한/영일 모두 형태적으로 빈약한(morphologically-poor) 언어(고립어)에서 형태적으로 풍부한(morphologically-rich) 언어(교착어)로의 번역방향을 가지는데 이는 그 반대인 경우에 비해 번역하기가 훨씬 어려운 특징을 가지고 있다. 목표언어의 복잡한 형태소를 효과적으로 생성하는 방법으로서 특히 두 언어쌍의 번역에서 주어와 목적어의 주제불일치(thematic divergence) 문제를 해결한다. 그 이유는 중영에서는 주어와 목적어 구문관계(syntactic relation)를 어순을 통하여 암묵적으로 표현을 하지만 한일에서는 격조사를 통하여 명시적으로 표현을 할 뿐만아니라, 목표언어로 번역 될 때 구문관계의 불일치 현상 즉 주어와 목적어가 빈번하게 다른 구문관계로 번역이 되기 때문이다. 전처리를 통하여 주어와 목적어의 주제불일치 문제를 구조적 예측 모델(structured prediction model)로 전환하여 풀고, 미리 예측된 주어와 목적어의 구문관계 정보를 원시언어에 삼입하는 방법을 통하여 형태구문적 차이를 줄이고자 한다. 마지막으로 위에서 제안한 두 가지 방법을 순차적으로 결합하여 보다 일반적인 구조변환 방법을 제시한다. 먼저 원시언어의 구문적 재배치를 하고 주어와 목적어 구문관계의 주제불일치 문제를 해결하거나, 또는 먼저 주제불일치 문제를 해결하고 다음으로 구문적 재배치를 실행하는 두 가지 방법을 제안한다.
URI
http://postech.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000000900147
http://oasis.postech.ac.kr/handle/2014.oak/1076
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse