樣板網頁結構自動分群

Clustering of Template Page for Data Extraction

Author: 吳佳儒

Publish Year: 2017-07

Update by: March 27, 2025

摘要

在網頁資料擷取(Web Data Extraction)的領域中,由於網頁內容多樣及架構的複雜性,要如何自動從各式不同樣板的網頁中擷取出資料,這類型的研究一直面臨相當大的挑戰。網頁資料擷取系統主要分為記錄層級(Record Level)和頁面層級(Page Level)兩大類別,兩者是接受相同樣板的網頁,進行資料擷取或是綱要推導,針對不同網頁樣板來進行分群之研究較為少見。 本篇論文提出一個依照網頁結構之相似程度來自動分群的功能,簡化不同網頁樣板之間擷取的問題,針對所設計的網頁特徵來實作非監督式分群與監督式分群,並比較其分群之效能。雖從整體分群效果中來看不甚理想,但於目標群結果可達到在非監督式分群時之精確率99%,召回率78%,監督式分群時之精確率97%,召回率超過80%。 最後,此分群結果可再結合Page-level Information Extraction System (UWIDE) 系統,產生完整的頁面綱要及擷取出所需POI相關資訊,進而建立及累積資料庫,以提升相關加值服務之效率及品質。