Web Cleaning: Page Segmentation and Data-rich Section Mining

Author: Hong-Ru Lee, Chia-Hui Chang

Publish Year: 2004

Update by: March 31, 2025

摘要

網頁是呈現線上龐大資料庫最主要的方式,內容包含許多資訊,除了本身想顯示的主要資料區域之外,還加上其他許多部份,例如:導覽連結、廣告、裝飾的圖文、著作權聲明…等等。每個部份都有各自分別的功能,把整個網頁分成很多獨立功能的小單元區塊,這些小單元區塊將可以應用在許多方面,例如:網路傳輸、儲存,PDA、手機上的瀏覽…等。大多數使用者感興趣的部份,可能只有表達網頁真正內容的資料區域,其它部份雖然有助於使用者瀏覽更方便,但是卻對電腦程式來說卻非常難去處理,例如:網頁資訊的資訊檢索(Information Retrieval)、資訊擷取(Information Extraction)、分類(Classification)、分群(Clustering),都會因為整個網頁內容不只有單一個主題目的,而造成這些研究上處理的困難。本篇論文提出一個有效的方法,PSDSM演算法,可以將整個網頁分割成很多具有單一功能、獨立存在的小區塊,然後在這些區塊當中,找出表達網頁真正內容的資料區域;主要分成兩個方面,第一、網頁區塊化:利用網頁重複性的結構,將內容相近的部份歸為同一區塊;第二、資料區域擷取:藉由比較兩個網頁對應區塊的內容,決定哪一個區塊是資料區塊。實驗結果顯示,在許多不同型態的網站,利用本篇論文的方法擷取出的資料區域,幾乎完美的接近使用者感興趣的真正內容;另外,將之應用於網頁資訊擷取系統 – IEPAD,以及網頁分類,結果顯示,擷取出的資料區域,對於這兩方面的研究都有不錯的幫助;最後,比較資料區域與整個網頁的資料量,對於某些網站,資料量減少的程度高達75%,對於網路傳輸將可以有不錯的助益。