基於網頁瀏覽模擬器之動態爬蟲程式生成研究

Generation of dynamic web crawler via browser simulator - Decoupling of crawling and extraction for WebETL tool construction

Author: 廖勳

Publish Year: 2021-07

Update by: March 26, 2025

摘要

網際網路發展至今,不僅成為應用程式開發的主要平台,也是人們獲取資訊最主要的管道。大量的網路爬蟲 (Web Crawler) 被建構來抓取網路上的資訊,藉以整合提供加值的資訊服務。根據網路安全公司 Imperva 及 Barracuda 統計,網際網路上有半數的流量來自網路機器人。為了防範惡意機器人的攻擊,網頁設計的架構日益複雜,透過 JavaScript 開發技術的使用,改變網頁嵌入和呈現數據的方式。這對於建構加值型網路應用服務來說,無疑是相當大的挑戰。例如在網址不變的情況下動態更新網頁內容。如何克服這類型的網站的網頁抓取是本文研究的主題。為了取得動態網頁的資料,本研究在 Chrome extension 上開發一套模擬使用者點擊流程的系統,透過 Chrome 擴充套件來記錄使用者的點擊與輸入,達到重現使用者在網頁瀏覽時的操作並抓取網頁資料。幫助使用者在不用寫程式碼的前提下,成功抓取網頁資料並提供定期自動抓取的功能。改善 WebETL System,對高互動性及一頁式網站的動態網頁下載問題,達到資料擷取及重覆使用的目的 (Data extraction And Reuse)。針對自動分頁偵測 失敗與政府網址連結與Alex統計的熱門網站共75個動態網頁中,成功的抓取70個,有93.33%的成功率。