On-the-fly Data Integration of Homogeneous Web Data
Author: Chih-Chiang Huang (黃執強)
Publish Year: 2005-07
Update by: March 31, 2025
摘要
現在由於網際網路的發達以及電子商務的盛行,使用者常常上網訂購需要的服務或物品,為了要得到最划算的服務與物品,使用者常常需要在多個網站間,做相同性質資料的比較,而目前使用者在網路上查詢資料時,所得到的查詢後資料是動態的而且是相當豐富的,使用者必須對於感興趣的資料一個一個的作分析比較,通常要完成這樣的一件事情,就必須花費使用者非常多的心力。所以必須要有一個機制,能夠將這些“深網”中屬於相同領域網站的相同性質的資料作整合,提供使用者更便利的服務。我們從這些回傳的資料中發現,這些網站中其資料屬性名稱的標示是不充足的,而這些資料卻擁有著高度相關的資訊,本篇研究論文及是利用這些高度相關的資訊,發展一套自動化作資料整合的方法,也就是在作屬性之間的對應時,不需要經過屬性名稱的標示,即可以完成資料的分析整合。又,目前在同領域同性質的網站上,因為各網站的作者不一樣,使得用來描述每一筆紀錄所使用的資料屬性也不一樣,在某一網站上使用n個屬性作描述的資訊,在另一個網站時卻是使用m個屬性來描述,這樣造成網站之間屬性的關係是群與群之間的關係,是多對多的關係,所以我們在作資料屬性的對應時,必須達到多對多的資料屬性對應,而不只是單純的一對一的對應。也就是說我們利用不同網站中查詢到相同資料以及該資料所具有的特性,發展出一套自動化的、多對多對應的資料分析整合系統,並且對於多個領域作整合的測試,其結果顯示出我們的方法可以達到相當不錯的效能。