基於自動分頁預測之大規模資料應用程式介面建置 - 以活動擷取為例
Author: 吳承儒
Publish Year: 2021-07
Update by: March 26, 2025
摘要
在傳統網頁擷取(Web Data Extraction)服務中,若碰到需要大量公告式資料(如:新聞、活動頁面等等)的情況,往往會需要透過使用者手動在網頁擷取系統上做分頁標記,因此在遇到分頁資料量龐大的網站時,使用者會耗費大量的時間在"教導機器如何切換網頁",導致無法有效地進行大規模的資料擷取。本研究將會把這個問題轉換成NLP領域中的序列標記(Sequence Labeling)問題,提供了基於神經網路的序列標記方法 - PRNSM,並結合了大多數網頁標記研究不會使用的 HTML Attribute 資訊,將網頁中的分頁標記成 "PAGE"、"NEXT" 以及 "OTHER",並在單一語言訓練、測試上面得到 0.818 的平均 Macro F1,另外我們也透過零樣本實驗展示模型在多語言的效能,在測試資料集 DE, RU, ZH, JA, KO 的零樣本實驗中達到了 0.774 的平均 Macro F1,最後我們將研究成果結合非監督式資料擷取系統(Unsupervised Data Extraction System),建立大規模自動化資料擷取系統,在大規模活動擷取的實際應用中,我們能從從 402 個網站中自動產生出 196 個資料 API,達到接近 0.5 的 API 建立率。