DREAM：結合領域知識檢索與多代理推理的結構化論文評估方法

Author: 黃懷萱

Publish Year: 2025-07

Update by: April 10, 2026

摘要

隨著全球學術產出規模不斷擴張，傳統的同行審查制度正面臨嚴重的人力瓶頸與審查品質不一等挑戰。由於審查作業本質上是一項耗時且高度仰賴專業判斷的工作，學界對於自動化輔助審查系統的需求日益殷切。然而，現有語言模型雖具初步生成能力，但在準確性、可解釋性與偏見控制方面仍與人類專家存在顯著落差，限制其實務應用。為回應此困境，本研究設計一套模組化的 AI 輔助論文審查系統，以提升生成評論的準確性、專業性與一致性。整體流程涵蓋三大設計理念：第一，透過記憶模組進行反思學習，記錄過往錯誤模式並轉化為泛化建議，使模型在未來任務中能主動修正偏誤，提升判斷穩定性與可追溯性。第二，於生成階段引入檢索增強生成（Retrieval-Augmented Generation, RAG）技術，針對論文主題動態檢索跨領域知識，作為外部依據補充，以增強評論內容的事實性與深度。第三，透過多代理系統（Multi-Agent System, MAS）將複雜的審查任務分解為多個具體面向，分別由不同功能的代理人處理，包括可讀性、方法嚴謹性與學術貢獻等，最後由統整代理人彙整各項輸出，生成結構化且具決策參考價值的審查意見。該系統不僅提升回饋品質，亦具備模組化與擴展彈性，能靈活對應不同審查需求與應用場景。本研究使用 ECNU-SEA/SEA-E 作為基線，在測試集的 F1 效能為 0.700，單獨引入記憶模組後，F1 分數可由 0.700 提升至 0.771，主因在於其有效提高正確拒絕樣本的比例（True Positive, TP），且並未犧牲正確接受的準確性（TN）；單純使用多代理架構即可將效能提升至 0.750；進一步結合 QLoRA 微調各代理人後可達 0.786，若再整合記憶模組，則最高可達 0.801。證實記憶模組與代理系統具備加乘效果，在精度與穩定性上展現優勢，也具備良好的擴展潛力與模組解釋性。