應用AutoNER於社群網路中文歌手名稱辨識之研究

Author: 邱威誠, 張嘉惠

Publish Year: 2020-12-03

Update by: March 27, 2025

摘要

本論文的研究主題為社群媒體上的中文命名實體辨識 (Named Entitiy Recognition, NER)。由於序列標記模型需要已標記的文本做為練資料,利用已知的字典透過自動標記的方式去產生訓練文本,是一種減少人工標記成本的方法。但在自動標記的過程中,可能會產生錯誤的標記而影響效能,如何解決這問題是這研究所面對的一大。我們參考 AutoNER 模型所使用的 Tie 和 Break 標記代傳統的BIEOS 標記方式,做為本論文模型的基礎;同時考量中文少英文之字詞分 ,限制語意的理解,因此我們外地加入了中文斷詞的資訊,提高標記中 Tie 的比例,以輔助序列標記模型的訓練。實驗結果顯示,在新的資料標記中,相較於完全比對(exact match) ,加入約略比對 (approximate match) 對模型 F1 的效能提升18% ;比採用BIEOS 標記之CRF架構下的模型,AutoNER架構下的模型在F1的效能提升9%。