PTT網站餐廳美食類別擷取之研究

Author: 鐘智宇, 周建龍, 張嘉惠

Publish Year: 2017-11

Update by: May 19, 2025

摘要

隨著資訊科技與網際網路的快速發展,從自然語言中擷取所需資訊(Information Extraction)技術也愈顯重要,本研究希望針對國內最大的電子佈告欄系統 (BBS, Bulletin Board System) 「PTT」中的「Food」版發展出一套自動化擷取文章中餐廳相關資訊並判斷餐廳類別的方法,讓餐廳資訊的取得更加快速且便利。本文架構主要分為三個部分,第一部分為餐廳相關資訊擷取,透過 PTT Crawler 擷取PTT Food 版上的文章進行格式化處理,並藉由關鍵字比對的方式擷取特定文章標題,以及正規表達式 (Regular Expression) 擷取內文包含的餐廳名稱、電話、地址及URL資訊。第二部分則是文章標題作為餐廳類別(例:咖啡、涮涮鍋、台式料理)的擷取來源,隨機挑選10,000筆標題資料針對隱含其中的餐廳類別進行人工標記;最後再透過 WIDM 實驗室研究室整合了條件式隨機域 (Conditional Random Field, CRF) 所開發的 WIDM NER TOOL分別進行監督式學習與半監督式學習的實驗,並從實驗結果得知利用此法在餐廳類別的擷取可獲得不錯的效果。