完整綱要推導之改進
Author: 丁中立, 張嘉惠
Publish Year: 2015
Update by: March 31, 2025
摘要
在網頁資訊擷取(Web Data Extraction)的領域中,如何自動的從各種不同架構的網頁中擷取資料的相關議題至今已被探討研究十年,然而由於現今網頁的內容多樣與架構的複雜,現有的方法均有其限制之處,再加上大量網頁擷取的需求,使得網頁資訊擷取的研究仍面臨相當大的挑戰。網頁資料擷取系統主要分成記錄層級(RecordLevel)和頁面層級(Page Level)兩大類別,雖然頁面層級相較於記錄層級能夠得到更完整的網頁資訊,但由於問題的複雜及實作的困難,使得現今提出的系統中,其擷取的效能與效率都有改進的空間。在本篇論文當中,我們提出了一套頁面層級資訊擷取系統,以 M.-C. Chen 及 T.-S. Chen 所提出的頁面層級系統的架構為基底。而非監督式擷取不佳的情況往往需要使用者介入,因此我們也提供一個簡單友善的圖形介面,讓使用者可以用此系統,快速擷取出所需要的網頁資訊。此外我們再往上對其訓練的流程做改良,提升系統的擷取效能;在本論文的實驗中顯示,對於訓練的流程上的改良結果,準確率(Precision)提升了 30.1%、召回率(Recall)提升了 25.6%,在整體效能比較中,改善後的系統得到了最高的召回率 92%。在精確度(Accuracy)部份,實驗顯示改良後的系統以預設的模組參數值,在整體精確度就比 TEX 還要高出許多;若是再以人工調整模組參數,整體精確率可再向上提升至 98.8%,整體精確率比 TEX 還要高 27%。