Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

정서 분석의 다국어 확장

Title
정서 분석의 다국어 확장
Authors
김준기
Date Issued
2011
Publisher
포항공과대학교
Abstract
정서분석은 개인의 견해, 판단, 의견, 감정, 감성 등과 같이 사실이 아닌 주관적인 글을 분석하는 연구분야이다. 인터넷 참여자의 손수제작물 (UCC) 등 주관적인 내용을 담은 대량의 데이터가 많아지고 자연어처리 기반기술, 기계학습 등 기술의 발전으로 특히 최근 다양한 정서분석 연구가 수행되어지고 있다. 이 박사논문의 목적은 정서분석의 다국어 확장이다. 다국어 정서분석의 필수적인 기능 및 역할을 위하여, 본 연구는 a) 언어간 분석결과의 비교 및 호환이 가능하고 b) 다양한 입력 언어에 옳은 분석결과를 도출할 수 있는 언어중립적인, 그리고 c) 분석 언어의 추가시 되도록 적은 자원을 요구하는 다국어 정서분석 시스템의 제안을 목표로 한다. 먼저, 본 연구는 다국어 시스템의 판별 기준(decision criteria)이 이 언어 간 유지되는 정도를 분별하는 다국어 비교호환성(multilanguage-comparability)의 정의 및 평가방법을 정의한다. 실험을 통해 제안하는 평가방법이 다국어 정서분석 시스템의 다국어비교호환성을 효과적으로 판별하는 것을 보였다. 또한, 이 논문은 다국어비교호환성, 추가언어 적용의 용이성, 그리고 전반적인 정서분석 성능의 향상을 꾀할 수 있는 언어중립적(language-neutral) 접근 방법을 연구한다. 제안하는 용어 가중치(term weighting) 기법은 정서분석에 요긴한 용어의 특징을 연구하고, 이를 용어의 식별력(discriminativeness), 중요성(prominence), 그리고 주제와의 연관성(topic-relevance)과 관계지어 통계적(statistical) 및 근접적(proximity) 가중치를 부여한다. 더불어, 언어중의적 방법론의 추가 방편으로 의미중의성해소(word sense disambiguation)를 사용하여 글의 의미를 파악하는 다국어 정서분석 시스템을 연구한다. 마지막으로, 본 연구는 자원이 풍부한(resource-rich) 언어, 특히 영어에서, 자원이 드문(resource-poor) 언어로의 전환(knowledge transfer) 방법을 연구한다. 구체적으로, 영어 정서단어 목록(sentiment lexicon)을 그래프 기반(graph-based) 알고리즘의 한 종류인 링크 분석(link analysis) 방법과 영한사전만을 사용하여 한국어 자원으로 전환하는 방법을 연구하였다. 자연어처리 연구에 이 논문이 기여하는 바는 다음과 같다. 먼저, 본 연구는 기존연구가 고려치 못한 다국어 비교호환성의 개념 및 판별의 중요성을 가장 처음으로 주장하였고 그 분별력 및 효용성을 실험적으로 보였다. 두 번째로, 본 연구는 언어중립적 연구의 방편으로 다양한 용어가중치 기법 및 중의성해소 기법을 정서분석 연구에 적용하여 다국어 정서분석 시스템의 성능향상을 이루었다. 이 논문의 마지막 주요 기여는 대상언어의 최소한의 자원만을 가지고 원천언어의 정서분석 자원을 효과적으로 전환하는 방법론을 제안하고, 더불어 다양한 영어자원으로부터 한국어 정서분석자원을 구축하였다는 것이다.
Sentiment analysis is the analysis of non-factual statements, i.e. private views such as attitudes, judgments, moods, and opinions. It is a relatively recent topic that has received much attention from different areas of study such as Natural Language Processing and Information Retrieval due to increasing demand and the availability of technology and resources. The objective of this dissertation is a multilingual extension of sentiment analysis. To address the essential capabilities of multilingual sentiment analysis, this dissertation proposes a multilanguage-comparable sentiment analysis system capable of a) producing comparable outcomes across languages, b) yielding excellent performances across all input languages, and c) adapting the system to new languages with low resources. This dissertation defines and measures the multilanguage-comparability of multilingual sentiment analysis systems, which is an analysis system's ability to retain its decision criteria across different languages. The proposed evaluation approach successfully distinguished the multilanguage-comparability of multilingual sentiment analysis systems. Our work also develops language-neutral sentiment analysis approaches that can aid multilingual sentiment analysis in multilanguage-comparability, easy adaptation to new languages, and overall performance. The proposed term-weighting approach explores the characteristics of good sentiment terms and various statistical term weighting schemes that measure discriminativeness, prominence, and topic-relevance of sentiment words. We develop multilingual sentiment analysis with word sense disambiguation to analyze deeper semantics of texts. This dissertation develops approaches that transfer knowledge from resource-rich languages to resource-poor languages. One of our approaches is to transfer the sentiment lexicon available in English to other languages using only a bilingual dictionary, and the other is to utilize the English WSD to disambiguate languages other than English. Our WSD-based sentiment analysis utilizes already available resources in English to disambiguate texts in languages other than English. The contributions of this dissertation to the academic research community are as follows. First, this work is the first to introduce the notion of multilanguage-comparability in multilingual text analysis. While no previous work in text analysis had considered the merits of multilingual text analysis with no regard to the language differences, we pay attention to the virtues of preserving the judgment principles across languages. Secondly, our proposed language-neutral approaches successfully utilized various term weighting methods and word sense disambiguation to sentiment analysis modeling and improved the overall performances of sentiment retrieval and classification tasks. The Third key contribution of our work is our knowledge transfer approaches for sentiment resources, which produce fairly good quality sentiment resources in target languages with minimal linguistic resources.
URI
http://postech.dcollection.net/jsp/common/DcLoOrgPer.jsp?sItemId=000000900136
http://oasis.postech.ac.kr/handle/2014.oak/1075
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse