行程邀約郵件的辨識與不規則時間擷取之研究

Recognition of Invitation E-mails and Extraction of Irregular Time Expressions for Intelligent E-mail Systems

Author: 吳忠翰

Publish Year: 2012-07

Update by: March 25, 2025

摘要

電子郵件是現代人最重要的通訊工具之一,不論是在工作上或是一般生活中,每天都會收到許多的電子郵件。而電子郵件中往往有許多重要的資訊,譬如會議或行程邀約郵件就會有事件時間的重要資訊,這些資訊若不經過人工的判別,並且手動將這些行程標註於行事曆中,則很可能就會讓此類重要資訊淹沒於大量郵件當中,而導致錯過重要的行程。面對此種問題,人們需要一套自動化的解決方案,但是郵件內容為非結構化文件,不易辨識是否為行程邀約,並且其中的時間,多是口語性的表達,亦不易辨識及擷取。 因此本研究希望建構一套系統,能夠辨識行程邀約郵件,再將這些行程邀約郵件中的時間表達字串擷取出來,做為日後提醒之依據。本系統分為兩個部份,第一部份是擷取郵件的特徵,藉由支持向量機分纇器,訓練出分類郵件的模型,來辨識行程邀約郵件。第二部份是將這些郵件中的時間資訊,採用條件隨機場域,訓練出標記時間表達字串的模型來萃取時間關鍵字,最後系統再透過Google Task API自動地將萃取出的行程加入於Google Task中。此機制可以減輕使用者人工判別的負擔,亦減少了錯失行程的機會。實驗結果顯示,本系統所提出之方法在邀約郵件的辨識上可達94.8的F-measure,在時間擷取上也可達到95.7的F-measure。