Ranking by Sentence Categorization for Question Answering Systems
Author: Zhi-Yui Yang, Yu-Chieh Wu, Chia-Hui Chang
Publish Year: 2004
Update by: March 31, 2025
摘要
在資訊大量擴充與爆炸的今日,加上資訊種類的繁多與複雜,所以更是難以找尋正確與所需的資料。而利用資訊檢索(Information Retrieval)與資訊擷取(Information Extraction)的方法,我們便可以易於在大量的資料中檢索與擷取重要的資訊。問題答覆答系統結合了資訊檢索與資訊擷取,在大量的文件中找尋問題相關的內文,進而擷取其答案。資訊尋找方式通常是利用資訊檢索的技術,但資訊檢索所得的資訊過於廣泛且雜訊過多,所以加上資訊擷取的方法,可以把資訊精簡。但單純的加入資訊擷取與資訊檢索,真正感興趣的部分還是無法得知,這時就需要專有名詞(Name Entity)辨識我們感興趣的部分,並加以擷取。一般的資訊檢索與資訊擷取無法直接套用在問題回答系統,原因是問題與答案的種類繁多,而且涉及自然語言的格式與方法,加上隨字彙語義、語法不同,語句的表示法也會不同,所以大部分問題答覆系統都需要進一步的問題分類(Question Classification)與段落擷取(Passage Retrieval)技巧,並加上人所觀察出的經驗法則(Heuristic)來解決問題與答案間的關連性。而人的因素牽涉越多,所花的成本也隨之增大。也由於人類相關的知識介入,所牽涉的領域很廣,很難用一個通則涵蓋所有範圍。而本篇所要設計的問題回答系統,即是利用已知的資訊加上分類演算法來建立系統模組,模組會自動學習如何找尋問題的答案。此種機器學習(Machine Learning)的技巧能讓系統面對未來可利用的訓練資料時,更能學習到重要資訊,而不需複雜的人為介入造成時間、人力成本的增加。這種以分類為基礎的問題回答系統是第一次被嘗試,而實驗也證明了其獨特性與優越性。