- 簽證留學 |
- 筆譯 |
- 口譯
- 求職 |
- 日/韓語 |
- 德語
Apriori算法
優(yōu)點:易編碼實現(xiàn)。
缺點:在大數(shù)據(jù)集上可能較慢。
適用數(shù)據(jù)類型:數(shù)值型或者標稱型數(shù)據(jù)。
關聯(lián)分析是一種在大規(guī)模數(shù)據(jù)集中尋找有趣關系的任務。這些關系可以有兩種形式:頻繁項集或者關聯(lián)規(guī)則。頻繁項集(frequent item sets)是經(jīng)常出現(xiàn)在一塊的物品的集合,關聯(lián)規(guī)則(association rules)暗示兩種物品之間可能存在很強的關系。下面會用一個例子來說明這兩種概念。圖1給出了某個雜貨店的交易清單。
圖1一個來自Hole Foods天然食品店的簡單交易清單
頻繁項集是指那些經(jīng)常出現(xiàn)在一起的物品集合,圖1中的集合{葡萄酒,尿布,豆奶}就是頻繁項集的一個例子(回想一下,集合是由一對大括號“{}”來表示的)。從下面的數(shù)據(jù)集中也可以找到諸如尿布→葡萄酒的關聯(lián)規(guī)則。這意味著如果有人買了尿布,那么他很可能也會買葡萄酒。
使用頻繁項集和關聯(lián)規(guī)則,商家可以更好地理解他們的顧客。盡管大部分關聯(lián)規(guī)則分析的實例來自零售業(yè),但該技術同樣可以用于其他行業(yè),比如網(wǎng)站流量分析以及醫(yī)藥行業(yè)。
尿布與啤酒?
關聯(lián)分析中最有名的例子是“尿布與啤酒”。據(jù)報道,美國中西部的一家連鎖店發(fā)現(xiàn),男人們會在周四購買尿布和啤酒。這樣商店實際上可以將尿布與啤酒放在一塊,并確保在周四全價銷售從而獲利。當然,這家商店并沒有這么做”。
應該如何定義這些有趣的關系?誰來定義什么是有趣?當尋找頻繁項集時,頻繁(frequent)的定義是什么?有許多概念可以解答上述問題,不過其中最重要的是支持度和可信度。一個項集的支持度(support)被定義為數(shù)據(jù)集中包含該項集的記錄所占的比例。從圖1中可以得到,{豆奶}的支持度為4/5。而在5條交易記錄中有3條包含{豆奶,尿布},因此{豆奶,尿布}的支持度為3/5。支持度是針對項集來說的,因此可以定義一個最小支持度,而只保留滿足最小支持度的項集。
可信度或置信度(confidence)是針對一條諸如{尿布}→{葡萄酒}的關聯(lián)規(guī)則來定義的。這條規(guī)則的可信度被定義為“支持度({尿布,葡萄酒})/支持度({尿布})”。從圖1中可以看到,由于{尿布,葡萄酒}的支持度為3/5,尿布的支持度為4/5,所以“尿布→葡萄酒”的可信度為3/4=0.75。這意味著對于包含“尿布”的所有記錄,我們的規(guī)則對其中75%的記錄都適用。
支持度和可信度是用來量化關聯(lián)分析是否成功的方法。假設想找到支持度大于0.8的所有項集,應該如何去做?一個辦法是生成一個物品所有可能組合的清單,然后對每一種組合統(tǒng)計它出現(xiàn)的頻繁程度,但當物品成千上萬時,上述做法非常非常慢。
責任編輯:admin