應用興趣點辨識技術從Web中挖掘新商家資訊

Author: 許國信, 張嘉惠, 莊秀敏, 周建龍

Publish Year: 2017-11

Update by: March 27, 2025

摘要

本論文提出一套系統能從網頁中自動化的挖掘新的店家資訊的方法。透過地址相關的特殊的關鍵字(如:台北市+新開幕)進行搜尋,找到可能包含地址及新開幕店家的網頁,再利用地址辨識模型先從結果中擷取地址,並從周圍透過興趣點辨識模型擷取商家名稱(Store Name Recognition),最終使用地址與興趣點關聯配對(POI Relation)模型推斷該商家名稱是否位於該地址。我們特別著重在商家名稱辨識以及POI Relation的模型建立。針對興趣點辨識模型的資料準備,我們將黃頁上的商家名稱透過實體篩選以及資料前處理,應用Distant Learning 及序列標記,可以訓練出F1值0.816的興趣點辨識模型。其次關於POI Relation 預測則是針對反例的準備進行研究,其中效能最好的模型有0.754的準確率。整體系統效能則使用兩個興趣點辨識模型搭配三種關聯分類模型,共進行六次實驗並分析,最好的組合平均每個IP每天能找到約49個新的興趣點。