基於已知名稱搜尋結果的網路實體辨識模型建立工具
A Tool for Web NER Model Generation Using Search Snippets of Known Entities
Author: 黃雅筠, 張嘉惠, 周建龍
Publish Year: 2015
Update by: March 31, 2025
摘要
在過去,命名實體辨識(NER)研究都以新聞報導等正式文章中的人名、地名、組織名稱為主,相對地以網路的非正式文章則著墨較少。因此,現有的辨識模組對於網頁內容的辨識效果顯得較差,當需要辨識網頁內容中的命名實體時,勢必要重新訓練辨識模組。然而,訓練一個模型的時間和人力成本非常高,包含前置的大量訓練資料準備、人工收集及標記答案,且為了提升模組辨識效果,必須要為資料做適當切割、符號統一、正規化,以及特徵值的設計、準備已知關鍵詞庫(Dictionary)等,工作非常瑣碎複雜。此外,對於不同語言或不同辨識主題則需重複上述工作。本論文的目的,期能解決上述命名實體辨識工作過於費力耗時的問題,經由給定已知實體名稱的搜尋結果來自動標記訓練資料,並結合 Chou 及 Chang [2]於 2014 年在網頁中文人名的辨識研究之 Tri-training半監督式訓練架構來產生 NER 模組。實驗證實,使用本工具可以套用在不同語言及類型的命名實體辨識,在中文組織名稱辨識的效能可達到 86.1%,在日文組織名稱辨識的效能可達到 80.3%,在英文組織名稱辨識的效能可達到 83.2%,辨識不同主題的中文地點名稱辨識效能可達到 84.5%,另外,辨識較長的命名實體如中文地址及英文地址辨識效能也可達到 97.2%及 94.8%。