Open Access System for Information Sharing

Login Library


Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

An Unsupervised Approach for Semantic Annotation in Dialog Corpora

An Unsupervised Approach for Semantic Annotation in Dialog Corpora
Date Issued
In recent years, an increasing number of devices have employed spoken dialog systems (SDSs) that provide natural and user friendly interface between humans and machines. As dialog systems become increasingly popular, the importance of the rapid development is growing sharply. In SDSs, a spoken language understanding (SLU) module is one of the key components that aims to fill domain-specific semantic frame slots from input utterances. A semantically annotated corpus is required to automatically train statistical SLU modules. Human annotation process can be a major barrier that inhibits the rapid development of multi domain SDSs. To resolve this issue, this dissertation proposes an unsupervised spoken language understanding framework for a multi-domain dialog system. Our unsupervised SLU framework applies a non parametric Bayesian approach to dialog acts, intents and slot entities, which are the components of a semantic frame. The proposed approach reduces the human effort necessary to obtain a semantically annotated corpus for dialog system development. In this study, we analyze clustering results using various evaluation metrics for four dialog corpora. We also introduce a multi-domain dialog system that uses the unsupervised SLU framework. We argue that our unsupervised approach can help overcome the annotation acquisition bottleneck in developing dialog systems. To verify this claim, we report a dialog system evaluation, in which our method achieves competitive results in comparison with a system that uses a manually annotated corpus. In addition, we conducted several experiments to explore the effect of our approach on reducing development costs. The results show that our approach be helpful for the rapid development of a prototype system and reducing the overall development costs.
최근 사람과 기계 사이에 자연스럽고 편리한 인터페이스를 제공하는 음성 대화 시스템이 많은 전자 기기에서 사용되고 있다. 대화 시스템이 대중화 됨에 따라 빠른 개발의 중요성이 점점 커지고 있다. 음성 대화 시스템에서 음성 언어 이해 모듈은 가장 중요한 요소 중 하나이다. 음성 언어 이해 모듈은 입력 발화로부터 영역 특화된 의미 프레임을 채워주는 역할을 한다. 하지만, 통계적 언어 이해 모듈을 훈련하기 위해서는 의미 태깅을 포함한 대화 말뭉치가 필수적이다. 대화 말뭉치에 의미 태깅을 추가하는 작업은 많은 노력과 시간을 필요로 한다. 이는 다영역 대화 시스템을 빠르게 개발하는 데 큰 장애물이 된다. 이를 해결 하기 위해 본 박사 학위 논문은 다영역 대화 시스템을 위한 비교사 학습 방식의 언어 이해 모듈 프레임워크를 제안한다. 우리의 프레임워크는 비모수 베이지안 접근 방식을 의미 프레임 구성 요소인 화행 (dialog act), 주행 (intent), 개체명 (slot entity)의 군집화에 적용한다. 본 방법론의 효과를 확인하기 위해 네 개의 대화 말뭉치를 대상으로 다양한 측정 방식을 사용하여 군집화 결과를 분석하였다. 또한, 대화 말뭉치의 의미 태깅을 본 방법론을 적용하여 자동으로 한 경우와 사람이 직접 한 경우의 대화 시스템 성능을 비교하였다. 추가적으로, 대화 시스템 개발 비용이 제안한 방법을 적용함에 따라 어떻게 달라지는 지는지 측정하였다. 실험을 통해 제안한 방법론이 대화 시스템 프로토타입의 빠른 개발과 전체 개발 비용을 줄이는 데에 효과적임을 검증하였다.
Article Type
Files in This Item:
There are no files associated with this item.


  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads