MINT: Mining Frequent Rooted Induced Unordered Tree without Candidate Generation
Author: Jiun-Hung Tung (童俊宏)
Publish Year: 2006-07
Update by: March 31, 2025
摘要
在資料探勘(Data Mining)的領域中樹狀結構的探勘(Tree Mining)是一個重要的問題,它可以應用在網站記錄(Web Logs)的分析、生物資訊(Bioinformatics)和半結構式的文件(Semi-structured Documents)上。然而在此方面的先前研究都是先產生候選型樣,再測試其是否為頻繁出現的型樣,如果不是則會被刪除。以這樣的做法會用都掉很多的時間及空間在候選者的產生與測試上。所以,在此篇論文裡面,我們使用區域頻繁的這個概念設計了一個不會有候選者產生的演算法來做「有樹根的」、「誘導的」、「無序的」樹狀結構的探勘工作,而我們把這個演算法稱為MINT。我們利用資料產生器產生一些人工合成的資料集,以及實際的網站記錄資料,和HybridTreeMiner 來做比較。實驗結果顯示出即使在樹狀結構這種複雜的資料型態中,使用找尋區域頻繁的觀念是依然可以有不錯的效能。