以網頁識別及清理改善資料擷取的研究

Web page Classification and Cleaning for Information Extraction

Author: 劉仁宇

Publish Year: 2006-07

Update by: March 31, 2025

摘要

網際網路使用的普及,豐富資訊不斷量增下,使用者面臨最大難題不在於資訊內容的多寡,而在於擷取出的資料能否符合實際所需。在網頁內容擷取最常遇到兩項困難:一是目標區域外,會有一些無關的資料;在目標區域內,也會夾雜著少許雜訊,影響擷取的正確性;然而真正擷取的目標內容,卻也因字詞與字詞間沒有嚴謹的文法及界限,而無法完整識別。基於此理由,本篇論文希藉由網頁清理技術來達成資料擷取的正確性。我們採用SVM分類器,配合頁面清理技術做為實際擷取的輸入網頁;另外在資料擷取上,採用SoftMealy擷取器,以Induction rule的演算法產出擷取規則。依據此種概念,提出CBIE(Cleaning Based Information Extraction)。我們的實驗從DBWorld中已確認Accepted paper公佈時程的各Conferences網站,辨識Accepted paper所在的網頁,再經由頁面清理擷取其中論文題目與作者,其結果顯示有相當程度改善效果,也證明頁面清理想法的可行性。