基於Web之商家景點擷取與資料庫建置

Points of Interest Extraction from Unstructured Web

Author: 高霆耀, 莊秀敏, 張嘉惠

Publish Year: 2015

Update by: March 31, 2025

摘要

隨著行動裝置的普及,區域搜尋成為了一項新興的熱門服務。然而區域搜尋要能提供完整的服務,必須要讓使用者能夠準確地搜尋到附近的興趣點(Point of Interest, POI),如餐廳、旅館、巴士站、卡拉 OK、圖書館、藥局等包含食衣住行育樂的地點。為此我們要建構一個完整的 POI 資料庫供使用者查詢。另外由於網際網路的盛行,越來越多的使用者會在他們的部落格或是社交網路上分享旅遊經驗或是 POI 的資料,同時也有更多的商家或組織建立官方網頁,並且在網頁上詳細的介紹他們的資料。隨著這類型網頁的數量累積,整個網際網路成為了最大的 POI 資訊來源。在本篇論文中我們提出一個基於 Web 資訊的 POI 建置系統,系統可以分為兩大部分,第一部分為包含地址網頁(Address-bearing Page, ABP)的爬取,目的在透過網頁中的地址找尋可能的 POI 以及可用來做為檢索的 POI 相關描述訊息。第二部分為 POI 擷取系統,透過條件隨機域(Conditional Random Field, CRF)作為學習演算法產生的中文組織名稱辨識模型及中文地址辨識模型,找出網頁中所有出現的地址和組織名稱,接著再將地址與組織名稱配對成 POI 資料,最後再為每一個 POI 擷取其相關資訊。