機器學習應用於樣版網頁擷取之研究
A Machine Learning Based Approach to WebExtraction from Template Pages
Author: 張志豪
Publish Year: 2010-07
Update by: March 26, 2025
摘要
網際網路包含大量的資料,其中深網(Deep Web)所提供的大量結構性資料,相較於表層網路(Surface Web)所提供的資訊有更高的價值。然而深網藉由共同閘道介面(CGI)所提供給人們查詢的方式並不適合程式的讀取,因此對於資訊的整合來說,如何從查詢所得的網頁中擷取所要的資料,是存在十多年的挑戰。其中的技術發展也從監督式的資料擷取方法到非監督式的資料擷取方法,並從主要資料擷取(Data Rich Section Data Extraction) 進化到全頁式的資料擷取(Page-level Data Extraction)。非監督式的資料擷取方法主要透過相似的網頁結構反向推導其產生模型使用的HTML 樣板以及資料模型,由於同樣的HTML 標籤可能用以呈現不同的資訊,因此自動推論最大的困難點便在於如何辨識相同HTML 標籤是否代表不同的意義。本篇論文應用機器學習方法來判斷網文件物件模型樹(DOM Tree)中的兩個HTML 標籤是否為同儕節點(Peer Node),藉以改善非監督式的資料擷取方法FiVaTech 推論網頁樣板(Template)及資料結構(Schema)的準確度。此分類器採用HTML 標籤資訊、視覺化資訊、文字內容資訊等三類做為分類器的特性。另外我們同時也利用比對顯示在瀏覽器上HTML 標籤的影像來輔助樣版的判斷。實驗結果顯示,採用J48 分類器對於Peer Node 的辨識可以逹到90%左右的準確率,同時對於資料結構的準確度也有20%的改善,顯示此方法的可行之處。