基於多元化部落格網頁之自動化擷取部落格主要文章

Automatic Extraction of Blog Post from Diverse Blog Pages

Author: 陳志銘

Publish Year: 2011-07

Update by: March 25, 2025

摘要

近年來,部落格為主的相關研究蓬勃發展,例如:意見檢索、情緒分析。因此,擷取部落格的主要文章即是一個不可或缺的步驟。在此篇論文中,我們將探討如何從各式各樣的部落格網頁精確且自動化的擷取部落格的主要文章。許多先前的研究著重於擷取新聞網頁的主要文章,若將其應用於部落格網頁並無顯著的效果,這是由於部落格網頁風格五花八門且文章內容包含多種格式,致使擷取部落格主文變得較為複雜。針對此問題,我們結合MSS [24] 和CETR [34] 這兩篇論文的研究並加以修改調整,提出兩個部落格主文擷取的方法。第一個方法為PTR Scoring,結合了Post-to-Tag Ratio和Maximum Scoring Subsequence,是一個非監督式演算法。第二個方法為CRF Scoring,透過Conditional Random Fields此機率模型並利用Maximum Scoring Subsequence提升擷取的準確率。實驗結果顯示CRF Scoring的F-Measure可達到91.9%,是本篇論文中準確率最高的擷取方法。本篇論文所提出之方法可應用於PDA、手機…等螢幕較小的裝置,以及提升部落格搜尋引擎的效能,並提供後續相關研究之參考與幫助。