應用多任務序列標記模型於零樣本跨語言網頁模板移除之研究

Author: 吳昱豪, 張嘉惠

Publish Year: 2021

Update by: March 26, 2025

摘要

網頁雖然資源豐富,但通常與廣告、橫幅、導覽列、版權等模板交織在一起,不利於後續資訊擷取應用。在本文中,我們研究了從輸入網頁中擷取主要內容並去除無關資訊的問題。常見的解決方案是將每個網頁區塊分類為模板(噪音)或主要內容。BoilerNet 等最先進的方法使用神經序列標記在CleanEval EN 資料集中取得了令人印象深刻的分數。在本文中,我們提出了一個基於輔助任務的多任務學習框架:節點路徑深度預測。此外,我們使用多語言 BERT 進行文字內容表示來處理任意語言網頁。實驗表明,多任務學習框架在CleanEval EN 資料集上的效能優於 BoilerNet。其次,基於多語言 BERT 的預訓練文字表示法,雖然在 EN 測試集上的性能相近;然而在三種語言(中文、日文和泰文)的零樣本實驗有相當大的提昇,這表明在一個模型中提供跨語言支持的可能性。