PagePilot: 基於多代理架構之多模態自動化網頁助理

Author: 葉季儒

Publish Year: 2025-07

Update by: April 10, 2026

摘要

隨著大型語言模型(LLM)推理及多模態分析能力的提升，已經可以自動完成許多任務，例如自動操作網頁，現有工具如browser-use和Manus可以依據使用者的要求瀏覽網頁，例如線上購物、搜尋資訊都能處理。但目前的自動化工具對於長網頁、大量文章、操作複雜的任務難以順利處理，容易出現導航問題、視覺對齊問題、幻覺問題，阻礙自動化操作。因此自動化agent仍然需要更多研究，對網頁架構深度優化以解決上述問題。我們以WebVoyager，一個自動化網頁操作系統為參考，在此基礎上提出了PagePilot系統，將網頁視覺輸入與原始碼資訊整合作為LLM Agent的輸入。PagePilot利用視覺方法進行網頁操作，並輔以從網頁原始碼萃取的關鍵資訊，提升在資訊擷取類任務上的表現。此外，系統引入了動態載入與觀察者agent等優化，前者通過模擬使用者滑鼠滾動來加載更多內容，後者在操作錯誤出現時提供回撤功能。實驗證明這些改進能緩解上述控制問題，提升任務完成率。在WebVoyager與GAIA等資料集上，PagePilot分別達到76% 和 57% 的任務完成率，皆顯著超越WebVoyager (65%, 27%)與GPT-4 (32%, 18%)的baseline，並大幅減少了所需的操作次數。另外我們構建了來自mind2web的任務資料集，以及中文語系的網頁資料集，即使此類任務較複雜的資料集，也能分別達到52%, 70%的性能。通過人工評估與LLM評估取得近似結果，顯示我們的系統對資訊擷取型的任務有較好的表現。根據消融實驗結果，本架構可以在減少9%動作步驟下，提高30%的任務完成率，為自動化網頁控制提供了新的基準。總體而言，我們提出了基於Multi Agent架構的網頁自動化控制系統，通過創新性的視覺與原始碼組合，以及針對網頁控制深度優化的架構，大幅提高任務完成率同時減少操作步驟。並且提出了基於中文網頁的評測資料集，驗證自動化控制在中文網站的可行性。我們期望透過這些方法與資源，對於網頁自動化領域有所幫助，並推動相關研究發展。