Open Access System for Information Sharing

Login Library


Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

한국어 음성합성을 위한 발음 및 끊어읽기 추정

한국어 음성합성을 위한 발음 및 끊어읽기 추정
Date Issued
본 학위 논문에서는 한국어 음성합성을 위한 발음 및 끊어읽기 생성 방법을 소개한다. 한국어 발음 생성 방법은 크게 지식 기반 방법과 데이터 기반 방법으로 나뉜다. 하지만 두 방법은 다음과 같은 한계를 지니고 있다. 규칙 기반으로 구현된 발음 변환 규칙은 언어분석기의 처리 한계와 많은 예외로 인해 특정한 발음 변화를 다룰 수 없다. 반대로 데이터 기반 방법은 항상 데이터 부족 문제에 직면하는데, 한글의 전체 음절 수가 11,172개에 달하는 점을 고려하면 데이터 부족 문제는 피할 수 없다. 두 방법의 단점을 극복하기 위해 본 학위 논문은 다음의 두가지 요소를 효과적으로 조합하는 방법을 제안한다. 하나는 언어학적으로 고려된 발음 변환 규칙에 기반한 시스템이고, 또 다른 하나는 최대 엔트로피 모델을 사용한 통계 기반 발음 변환 시스템이다. 실험 결과는 제안한 방법이 효과적이라는 것을 보여주었다. 끊어읽기에 영향을 미치는 요소들을 추정 모델에 반영하기 위해 언어학적으로 고려된 기계 학습 자질들을 조사하였다. 이 자질들은 스태킹 모델을 이용하여 효과적으로 사용되었으며 자질 최적화 기술을 이용하여 성능 향상을 꾀하였다. 실험에 사용한 말뭉치는 4,392문장(55,015단어, 문장당 평균 13단어)으로 구성되어 있다. 말뭉치에는 화자 개인의 끊어읽기 특성이 반영되어 있으나, 이러한 특성은 일반적인 목적의 음성합성 시스템에는 적절하지 않다. 따라서 화자 개인의 특성을 줄일 수 있는 방법도 제안한다. 제안한 방법의 효과를 실험적으로 보여주었으며 해당 실험에서 사용된 말뭉치는 비교 연구를 위해 공개한다.
This thesis describes a grapheme to phoneme (G2P) conversion method and a prosodic phrasing method for Korean speech synthesis. To address the problem of the grapheme to phoneme of the Korean language, two main approaches have been discussed: knowledge-based and data-driven methods. However, both approaches have limitations: the knowledge-based hand-written rules cannot handle some pronunciation changes because of the lack of capability of the linguistic analyzers and the many exceptions. On the other hands, data-driven methods always suffer from data sparseness, considering the 11,172 orthographic syllable combinations of phoneme segments in Korean. To overcome the shortages of both approaches, this thesis presents a novel combined method, which effectively integrates two components: (1) a rule-based converting system based on linguistically motivated hand-written rules and (2) a statistical converting system using a Maximum Entropy model. The experimental results clearly showed the effectiveness of the proposed method. To reflect the factors affecting prosodic phrasing in the prediction model, linguistically motivated machine-learning features were investigated. These features were effectively incorporated using a stacking model. The phrasing performance was also improved through feature engineering. A 4,392-sentence corpus was used in the experiment (55,015 words with an average of 13 words per sentence). Because the corpus contains speaker-dependent variability that should not be reflected in a general purpose speech synthesis system, a method is proposed to reduce this type of variability. In addition, the entire set of data used in the experiment is provided to the public for future use in comparative research.
Article Type
Files in This Item:
There are no files associated with this item.


  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads