PagePilot: 基於多代理架構之多模態自動化網頁助理

Author: 葉季儒

Publish Year: 2025-07

Update by: April 10, 2026

摘要

隨著大型語言模型(LLM)推理及多模態分析能力的提升,已經可以自動完成許多任務,例如自動操作網頁,現有工具如browser-use和Manus可以依據使用者的要求瀏覽網頁,例如線上購物、搜尋資訊都能處理。但目前的自動化工具對於長網頁、大量文章、操作複雜的任務難以順利處理,容易出現導航問題、視覺對齊問題、幻覺問題,阻礙自動化操作。因此自動化agent仍然需要更多研究,對網頁架構深度優化以解決上述問題。我們以WebVoyager,一個自動化網頁操作系統為參考,在此基礎上提出了PagePilot系統,將網頁視覺輸入與原始碼資訊整合作為LLM Agent的輸入。PagePilot利用視覺方法進行網頁操作,並輔以從網頁原始碼萃取的關鍵資訊,提升在資訊擷取類任務上的表現。此外,系統引入了動態載入與觀察者agent等優化,前者通過模擬使用者滑鼠滾動來加載更多內容,後者在操作錯誤出現時提供回撤功能。實驗證明這些改進能緩解上述控制問題,提升任務完成率。在WebVoyager與GAIA等資料集上,PagePilot分別達到76% 和 57% 的任務完成率,皆顯著超越WebVoyager (65%, 27%)與GPT-4 (32%, 18%)的baseline,並大幅減少了所需的操作次數。另外我們構建了來自mind2web的任務資料集,以及中文語系的網頁資料集,即使此類任務較複雜的資料集,也能分別達到52%, 70%的性能。通過人工評估與LLM評估取得近似結果,顯示我們的系統對資訊擷取型的任務有較好的表現。根據消融實驗結果,本架構可以在減少9%動作步驟下,提高30%的任務完成率,為自動化網頁控制提供了新的基準。總體而言,我們提出了基於Multi Agent架構的網頁自動化控制系統,通過創新性的視覺與原始碼組合,以及針對網頁控制深度優化的架構,大幅提高任務完成率同時減少操作步驟。並且提出了基於中文網頁的評測資料集,驗證自動化控制在中文網站的可行性。我們期望透過這些方法與資源,對於網頁自動化領域有所幫助,並推動相關研究發展。