PagePilot : 基於多代理架構之多模態自動化網頁助理

Author: 葉季儒, 張嘉惠, 施冠宏

Publish Year: 2025-12-13

Update by: January 5, 2026

摘要

推理和多模態分析的最新進展使大型語言模型 (LLMs) 能夠自動化執行網頁導航任務。然而,現有系統在處理複雜的長篇網頁互動時遇到困難,這是由於在處理動態內容和可擴展架構方面的限制所致。為了解決這一差距,我們引入了 PagePilot,這是一個自動化網頁控制系統,整合了 DOM 原始碼分析和多代理協作以實現穩健的任務執行。基於 WebVoyager 構建,PagePilot 整合了動態載入功能來處理無限滾動頁面和非同步內容,同時採用階層式推理框架進行高效決策。評估結果顯示了最先進的性能:在WebVoyager 上達到 76% 的任務成功率 (相比 63% 的基準線),在 GAIA 上達到 47%(相比 GPT-4 的 38%)。為了驗證泛化能力,我們從 Mind2Web 和一個新穎的中文網頁資料集中策劃了基準測試,分別達到 52%和 70% 的成功率,在語言多樣化場景中超越了先前的方法。消融研究證實了關鍵設計選擇,顯示與片段化方法相比,任務完成率提高了 22%,冗餘動作減少了 27%。