2008-07-23

DM 相關程式

Association Rule 相關程式範例

Frequent Itemsets

  • Apriori (Java)
  • DIC (Dynamic Itemset Counting) (Java)
  • Apriori (Java)
    • 說明:這支程式使用 Apriori 的方法來產生 frequent itemsets,Apriori 為關聯法則最具代表的演算法 [R. Agrawal and R. Srikant, 1994]
    • 程式來源:http://www.ug.cs.usyd.edu.au/~abright/comp5318homework.html
    • Program Implementation
    • 執行程式及測試資料下載:AdrianBright_apriori
    • 請先進行編譯,編譯時出現的警告訊息可忽略
      javac *.java
    • 編譯成功後,即可執行程式,如下:
      java ARM [items_file] [transactions_file] [output_file] [min_support_percentage]
      eg. java items.txt transactions.txt output.txt 30
    • 執行結果檔:output.txt


  • FP-Growth (C language, Linux)
  • GCTree (Java)
    • 說明:使用群聚壓縮樹資料結構,以達到不需事先設定 minisup 的挖掘法。[劉信義, 2004]
    • 程式來源:劉信義
    • 執行程式及測試資料下載:GCTree
    • 將壓縮檔解開後,使用下列命令執行(壓縮檔內為已編譯之 Java 程式)
      java -cp .;.\jbcl.jar gctree.MainFunction
    • 執行畫面與結果顯示:gctree.gif
    • 原始程式碼下載:GCTreeSrc.exe (內含 JBuilder 專案檔,原始開發環境 JBuilder 9)


Association Rule

  • Apriori (C language)
    • 說明:很完整的一支程式,使用 Apriori Algorithm。利用參數方式,可彈性選擇輸出 itemsets, closed itemsets, or association rule。
    • 程式來源:http://fuzzy.cs.uni-magdeburg.de/~borgelt/apriori.html
    • Program Documentation
    • 執行程式及測試資料下載:Christian_apriori
    • 程式執行方式如下 (Usage)
      apriori [options] infile outfile
      eg. apriori sample.dat sample.rul   // 使用預設值執行
      eg. apriori -ts sample.dat sample.rul // 只產生 frequent itemsets
      eg. apriori -s60 -c80 sample.dat sample.rul // set support=60%, confidence=80%
    • 原始程式碼下載:aprioriSrc.zip。內含專案檔,可用 Visual Studio C++ 編譯。
    • 執行結果檔:census.txt


  • AR View (Java)
    • 說明:將上述 Apriori 程式所產生出來的關聯規則以表格的方式呈現。
    • 程式來源:http://fuzzy.cs.uni-magdeburg.de/~borgelt/arview.html
    • 執行程式及測試資料下載:Christian_ARView
    • 程式執行:直接雙擊 arview.jar 即可
    • 注意:ARView 需要額外訊息以顯示資料,產生關聯規則是需加上 -gavy 參數,如下:
      apriori -gavy sample.dat sample.rul
    • 原始程式碼下載:arviewSrc.zip
    • 執行畫面如圖:ARView.gif

Mining Tools

Paper

  1. R. agrawal and R. Srikant, "Fast Algorithms for Mining Association Rules," Proc. Int'l Conf. Very Large Data Bases, pp. 487-499, 1994
  2. S. Brin, R. Motwani, J. Ullman and S. Tsur, "Dynamic Itemset Counting and Implication Rules for Market Basket Data," In Proc. of the 1997 ACM-SIGMOD Conf. on Management of Data, pp. 255-264, 1997.
  3. Jiawei Han, Jian Pei and Yiwen Yin, "Mining Frequent Patterns without Candidate Generation," Proc. 2000 ACM-SIGMOD Int. Cnf. Management of Data (SIGMOD'00), PP.1-12, 2000.
  4. 劉信義, "使用群聚壓縮樹之高效率關聯法則挖掘法," 中央大學未出版碩士論文, 2004.

 

Link

  1. The Chinese University of Hong Kong - Database Research Group - Program Library
  2. Frequent Itemset Mining Implementations Repository
  3. Christian Borgelt's Webpages
  4. Data Mining Software Resources
Ref-
http://72.14.235.104/search?q=cache:8_GHOLhxT1IJ:wuyy.idv.tw/research/dm/AssociationRule.php+apriori&hl=zh-TW&ct=clnk&cd=11&gl=tw

沒有留言: