Open Access System for Information Sharing

Login Library

 

Thesis
Cited 0 time in webofscience Cited 0 time in scopus
Metadata Downloads

Design and implementation of an end-to-end system for extracting, maintaining, and publishing data on the web

Title
Design and implementation of an end-to-end system for extracting, maintaining, and publishing data on the web
Authors
이승민
Date Issued
2021
Publisher
포항공과대학교
Abstract
웹 데이터의 크롤링은 오래전부터 연구되어왔다. 그러나, 기존 크롤링 관련 연구 들은 빠르고 효율적인 크롤링에만 초점을 두고 있다. 또한 일반 사용자가 사용하 기에 어렵고, 추출된 가치 있는 정보들을 어떻게 관리하고 활용하는지에 대해서는 다루지 않기에 실제 환경에 적용하에 무리가 있다. 상용 애플리케이션들은 일반 사용자들도사용할수있도록적절한툴을통해크롤링및데이터관리기능을제공 한다. 또한 일부 애플리케이션들은 크롤링한 정보들을 활용하는 방법을 제공한다. 그러나 이러한 애플리케이션들은 느리거나 비효율적인 크롤링 또는 최신 정보의 비효율적인 관리 문제를 겪고 있다. 우리는 일반 사용자들이 웹상의 데이터를 분 산 환경에서 크롤링하고, 수집한 데이터를 효율적으로 유지 및 관리하며, 수집한 데이터의 활용을 지원해주는 GUI 기반의 end-to-end 애플리케이션을 디자인 및 구 현하였다.
Web crawling has been extensively studied and focused on how to crawl efficiently. However, these studies are not applicable since it is difficult for ordinary users not experts to use them, and it does not deal with how to manage and utilize the extracted valuable information. Some commercial applications provide crawling and managing services through easy-to-use tools. Moreover, a few applications provide how to utilize the valuable information. However, those applications suffer from inefficient crawling or inefficient management of up-to-date information. In this paper, we design and implement an end-to-end application for web-based product management using a dedicated GUI in a distributed environment, which ordinary users can easily crawl and efficiently maintain the product information while avoiding useless updates.
URI
http://postech.dcollection.net/common/orgView/200000598321
https://oasis.postech.ac.kr/handle/2014.oak/117263
Article Type
Thesis
Files in This Item:
There are no files associated with this item.

qr_code

  • mendeley

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Views & Downloads

Browse