Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

High Recall Data-to-text Generation with Progressive Edit

Title
High Recall Data-to-text Generation with Progressive Edit
Authors
김충한
Date Issued
2022
Publisher
포항공과대학교
Abstract
Data-to-text (D2T) generation is the task of generating texts from structured inputs. We observed that when the same target sentence was repeated twice, Transformer (T5) based model generates an output made up of asymmetric sentences from structured inputs. In other words, these sentences were different in length and quality. We call this phenomenon "Asymmetric Generation" and we exploit this in D2T generation. Once asymmetric sentences are generated, we add the first part of the output with a no-repeated-target. As this goes through progressive edit (ProEdit), the recall increases. Hence, this method better covers structured inputs than before editing. ProEdit is a simple but effective way to improve performance in D2T generation and it achieves the new state-of-the-art result on the ToTTo dataset.
D2T(Data-to-Text)는 구조화된 입력 자료에서 자연스러운 텍스트를 생성하는 작업이다. 우리는 레이블로 동일한 문장이 두 번 반복될 때 Transformer(T5) 기반 모델이 비대칭적인 문장을 생성하는 것을 관찰했다. 이러한 문장들은 길이와 내용 이 다르다. 우리는 이러한 현상을 "비대칭 생성"이라고 부르고 이를 D2T 작업에 이용한다. 비대칭적인 문장이 생성되면 이들 중 첫 번째 부분을 가져오고 여기에 기존의 레이블 문장을 이어붙인다. 이렇게 이어붙여진 레이블로 학습을 시키면 출 력된 문장의 재현율이 증가한다. 이 과정은 반복적으로 수행될 수 있고 이를 통해 재현율이 향상되기 때문에 우리는 이 과정을 "점진적인 편집(ProEdit)"이라고 부 른다. 점진적 편집을 거친 문장은 편집 전보다 구조화된 입력을 더 많이 포함한다. ProEdit는 ToTTo 데이터 세트에서 가장 높은 결과를 달성했으며 D2T 작업에서 성능을 향상시킬 수 있는 간단하면서도 효과적인 방법이다.
URI
http://postech.dcollection.net/common/orgView/200000635236
https://oasis.postech.ac.kr/handle/2014.oak/117378
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse