ToBI로 표기된 운율을 활용한 영어 발화 평가

이 논문에서는, ToBI 기반의 운율 요소에 의한 단어 수준의 오류 정보를 활용하여, 영어 발화 평가 모델을 구축하고자 한다. Boston University Radio News 말뭉치와 Conditional Random Fields 기계학습 방법론을 사용하여, ToBI와 연관된 운율 요소인 pitch accent, phrase break, phrase accent, boundary tone에 대한 예측 및 검출 모델을 구축하였으며, 그 결과 대략 90% 정도의 Accuracy가 확인되었다. 이를 바탕으로, 한국인을 대상으로 영어를 녹음한, Korean Learners' English Accentuation 말뭉치(KLEAC)의 자료에서, 각 운율 요소의 단어 수준 오류 정보를 수집하였다. 이렇게 모아진 오류 정보를 기계학습 자질로서, C4.5 및 Multilayer Perceptron 기계학습 방법론에 대응시킨 다음, KLEAC에 기록된 각 한국인 화자에 따른 영어 발화 평가 점수(1-5)와 상관관계를 측정하였다. 그 결과, C4.5와 KLEAC의 상관관계는, Oral Proficiency에 대하여 0.5963, Fluency에 대하여 0.5910으로 측정되었다. 한편, KLEAC 제작에 참여한 각 평가자 사이의 상관관계 수치는, Oral Proficiency에 대하여 0.6729, Fluency에 대하여 0.6349로 측정되었다. 따라서, 이 논문에서 제기한 ToBI 기반의 운율 요소에 의한 영어 발화 평가 모델은, 사람에 의한 발화 평가와 높은 상관관계를 가진다고 보여진다.
This paper presents English speech assessment models that use word-level error information derived from ToBI-based prosodic components. The Boston University radio news corpus and conditional random fields classifiers were adopted to train the prediction and detection models for prosodic component including pitch accent, phrase break, phrase accent and boundary tone to yield approximately accuracies of 90%. The C4.5 and multilayer perceptron algorithms utilized the word-level error decision results as features to build English speech assessment models using the Korean learners' English accentuation corpus (KLEAC), which contains speeches to which English phonetic experts assigned oral proficiency, pronunciation and fluency scores on a scale of 1-5. The proposed English speech assessment models demonstrated that the Pearson’s correlation coefficients between machine and human ratings are 0.5963 for oral proficiency and 0.5910 for fluency, whereas the correlation values between ratings of different humans in the KLEAC is 0.6729 for oral proficiency and 0.6349 for fluency. The proposed method for English speech assessment is considered to be highly correlated to the human ratings.
