May 15, 2005

一個以產品關聯圖為基礎之資料探勘新方法

一個以產品關聯圖為基礎之資料探勘新方法

 

http://www.csie.cyut.edu.tw/TAAI2002/TAAI2002PDF/Parallel%20Session(B)/B1%20Data%20Mining/B1-4.pdf

 

<摘錄>

 

本論文以產品關聯圖(Relational Graph of Products)為基礎,提出一個新的資料探勘方法。這個方法針對市場上不同的客戶,逐步統計出每個客戶對每項產品之間的購買關係(Relationships)與關聯性(Association),並繪製成產品關聯圖,然後再從產品關聯圖中找出關聯規則與串列規則(Serial Rules),我們稱這個演算法為以產品關聯圖為基礎的資料探勘(Data Mining Based on Relational Graph of Products) 方法。本方法採用漸增式探勘(Incremental Mining)的觀念,並以產品關聯圖作為視覺化(Visualization)工具來表示資料庫中成對出現的產品配對(Product Pairs)間的關係,藉由統計(Statistics)的方式建構出產品關聯圖。然後使用圖形的搜尋方法找尋大於或等於頻率臨界值(Frequency Threshold Value)α的完全β-多邊形集合(Complete β-Polygon Sets),此即最常出現的最大β-產品項目集合,其中α0β2,且α β 為兩個可讓使用者自行設定的正整數。通常α 是取最小值(從產品關聯圖中刪除最少的邊),而β 是取最大值(找最大的完全β-多邊形)。最後再依照這些最大β-產品項目集合來產生關聯規則與長度為γ 的串列規則,其中γ3。並計算其對應的最小支持度最小信心值(MinimumConfidence)這個演算法比目前已存在的方法更具有彈性,而且很容易找出各個顧客的購買喜好

 

 

閱讀心得:

 

該論文採用了類似Key Graph的手法,統計購買商品之間同時被購買的頻率,逐一建構出商品購買的關聯網路,透過調整α這個參數,可以改變整個網路中connected component的數量,再撘配分群後的結果計算各個群落的支持度和信心度,此法結合了圖形理論與Data Mining理論,使得商品之間的購買關聯能夠更容易一目瞭然,也較Apriori演算法嚴格淘汰的篩選法更客觀、也更具彈性。

 

該方法我想也可以視為介於Key Graph法與傳統Data Mining方法之間過度的版本,因為在Key Graph法中特別定義了key值的算法來表示某個item對於各個cluster的緊密程度,以較偏向圖形理論的方式來計算。這樣評估值的算法便不同於在DM理論中所計算的supportconfidence值,但是在分群的方式是上相同的,皆為透過兩兩同時出現的關聯程度來劃分出不同的群體。

 

我認為本篇文章也特別注意到了一個重點,就是α值的設定,在Key Graph理論中,認為assoc數值前(Nhf-1)名設定為links,但是事實上在分群前rank後的關聯其assoc值可能會有局部的雷同,這樣便會遇到如何從名次相同的組別中篩選出有限名額的問題,所以適當的讓這個「閥值」具有彈性並有效的區隔群體是非常重要的,因為它就像勞倫茲氣象模型的某個雜訊參數,會大大的影響整個探勘後的網路圖形及關聯規則。

 

0推薦此文章
Today's Visitors: 0 Total Visitors: 0
Personal Category: Small World Topic: 未分類
Previous in This Category: 廣告代言人的3W1H   Next in This Category: 視覺化資料探勘技術在企業經營管理與製造業生產管理之應用
[Trackback URL]

Post A Comment









Yes No



Please input the magic number:

( Prevent the annoy garbage messages )
( What if you cannot see the numbers? )
Please input the magic number

誰來收藏
Loading ...
unlog_NVPO 0